PathMBA Vault

Business management

Tenga cuidado con las correlaciones falsas

por

Todos conocemos la obviedad de que «la correlación no implica causalidad», pero cuando vemos líneas que se inclinan juntas, barras que se juntan o puntos en un diagrama de dispersión que se agrupan, los datos prácticamente nos piden que le demos un motivo. Queremos creer que existe uno.

Sin embargo, estadísticamente no podemos dar ese salto. Los gráficos que muestran una estrecha correlación suelen basarse en un truco de salón visual para dar a entender una relación. Tyler Vigen, estudiante de doctorado en la Facultad de Derecho de Harvard y autor de Correlaciones espurias, ha hecho deporte de ello en su sitio web, que muestra correlaciones absurdas, por ejemplo, entre el consumo de margarina per cápita de EE. UU. y la tasa de divorcios en Maine.

Vigen ha programado su sitio para que cualquiera pueda encontrar y trazar correlaciones absurdas en grandes conjuntos de datos. Probamos algunas de las nuestras y se nos ocurrieron estas joyas:

F1506Z_VS_BEWARESPURIOUSCORRELATIONS-1

Aunque es fácil detectar y explicar ejemplos absurdos como estos, es probable que se encuentre con gráficos manipulados pero plausibles en su trabajo diario. Estos son tres tipos de los que los gerentes deben tener en cuenta:

Manzanas y naranjas comparando variables diferentes

Las escalas del eje Y que miden diferentes valores pueden mostrar curvas similares que no deberían emparejarse. Esto se vuelve pernicioso cuando los valores parecen estar relacionados, pero no lo están.

F1506Z_VS_BEWARESPURIOUSCORRELATIONS-2

Es mejor trazarlos por separado.

F1506Z_VS_BEWARESPURIOUSCORRELATIONS-3

Escalas sesgadas que manipulan los rangos para alinear los datos

Incluso cuando los ejes Y miden la misma categoría, cambiar las escalas puede alterar las líneas y sugerir una correlación. Estos ejes Y de los ingresos mensuales de RetailCo difieren en rango y aumento proporcional.

F1506Z_VS_BEWARESPURIOUSCORRELATIONS-4

Eliminar el segundo eje demuestra lo sesgado que está el gráfico.

F1506Z_VS_BEWARESPURIOUSCORRELATIONS-5

Si y luego implican causa y efecto

Reunir conjuntos de datos no relacionados puede hacer que parezca que los cambios en una variable están provocando cambios en la otra.

F1506Z_VS_BEWARESPURIOUSCORRELATIONS-6

Intentamos crear una narrativa— Si Pandora pierde menos dinero, entonces más música tiene derechos de autor, por lo que probablemente sea una coincidencia.

F1506Z_VS_BEWARESPURIOUSCORRELATIONS-7