Una importante lección de datos de un escándalo futbolístico sin importancia
por Kaiser Fung
Como» Deflategate» sacude a la National Football League en vísperas de la Super Bowl de este año, los analistas de datos se han lanzado en picado, incluido Warren Sharp, uno de los muchos autodenominados analistas de fútbol que bloguean sobre el tema. En una pizarra artículo analiza el ritmo de torpeza de los New England Patriots, el equipo acusado de desinflar los balones de fútbol a propósito para obtener una ventaja. El titular de su análisis califica la tasa de fumble de los Patriots en comparación con el resto de la liga como «casi imposible».
Se podría pensar que Sharp encontró la pistola humeante, una estadística que demuestra que los Patriots hicieron trampa. Solo un lector paciente que insista en el último párrafo verá que Sharp admite en última instancia que el espectacular desempeño de Nueva Inglaterra en la métrica podría explicarse de varias maneras, incluidas las legítimas, como el perfeccionamiento de las técnicas de seguridad del balón o la práctica de la prevención.
En resumen, los datos dicen que los Patriots son excelentes a la hora de prevenir los balones. No dice nada sobre por qué.
Esta distinción representa uno de los problemas más infravalorados del análisis de macrodatos: hablar de causalidad inversa. En los problemas de causalidad inversa, conocemos el resultado y trabajamos al revés para entender las causas.
Las investigaciones de causalidad inversa tienen la estructura opuesta a la Pruebas A/B, en la que variamos las causas conocidas y observamos cómo las variaciones afectan a un resultado. Si el número de visitas a su sitio web aumentó tras cambiar la imagen en su página de Facebook, concluye que la nueva foto es la razón del aumento del tráfico. (Nota: Una buena construcción de las pruebas A/B puede ayudarlo a ver las causas más probables; una mala construcción de las pruebas A/B crea su propio conjunto de problemas.).
Por el contrario, el mayor obstáculo para resolver la causalidad inversa es el número infinito de causas posibles que pueden influir en el resultado conocido. Esto se ve agravado por el hecho de que queremos asignar una causa. Así que cuando se extraen algunos datos de un conjunto grande que se ajustan a una narrativa que quizás ya hayamos construido, es muy tentador simplemente asignar la causalidad cuando no existe.
Sin embargo, la mayoría de las veces, los datos ofrecen pistas, pero no pruebas. El artículo de Sharp sobre los Patriots es uno de esos casos. Al leer este estilo de periodismo de datos, preste atención a la estructura del argumento estadístico. Así es como resumo el de Sharp:
- Nueva Inglaterra es un caso atípico en la métrica de jugadas por balón perdido, con un rendimiento mucho mejor que el de cualquier otro equipo (1,8 veces por encima de la media de los equipos de la NFL).
- Las diferentes formas de visualizar y reformular la métrica llevan a la misma conclusión de que Nueva Inglaterra es el caso atípico.
- Hay un «efecto cúpula». Los equipos cuyos estadios locales están bajo techo suelen sufrir 10 balones menos que los equipos al aire libre. Nueva Inglaterra es un equipo que no es un domo y supera a la mayoría de los equipos de domo en jugadas por total de balones. Si se eliminan algunos equipos del análisis, Nueva Inglaterra es un caso atípico estadístico.
- Suponiendo que la distribución de la métrica por equipo sea una curva de campana, la probabilidad de que Nueva Inglaterra haya alcanzado un nivel de juego tan extraordinario por cada balones perdidos es extremadamente remota.
- Por lo tanto, es «casi imposible» que un equipo posea esa habilidad para evitar los balones… a menos que el equipo haga trampa.
Los puntos 1 a 4 son esencialmente reiteraciones ligeramente diferentes del resultado conocido. Es el punto cinco en el que se establece una conexión entre ese resultado y sus causas. Pero el nexo causal es débil en el mejor de los casos. Por muy sugerentes que sean, los datos no prueban intención o culpabilidad. Simplemente describe un fenómeno estadístico.
De hecho, analizar los datos de los Patriots demuestra que puede que no sean un gran caso atípico. En el análisis de la «cúpula», Sharp pasó de analizar los balones perdidos a los balones totales (que incluye los balones recuperados). Otros analistas de datos de fútbol tienen concluido (más de la mitad de la página) que la recuperación del fumble es en su mayoría aleatoria, por lo que las jugadas por total de balones son la métrica más útil.
Con esta nueva medida, los Patriots no son un caso atípico, ya que ocupan el segundo lugar después de los Atlanta Falcons en cuanto a rendimiento de fumble. Solo cuando Sharp eliminó todos los equipos de cúpula (siendo uno de los Falcons) pudo argumentar que los Patriots eran un caso atípico.
Sharp demostró que es casi imposible para un promedio equipo para lograr una tasa de fumble tan baja, pero no tenemos datos que demuestren que los Patriots o algún equipo en particular no puedan lograrlo de forma legal. Y de hecho, el análisis del domo sugiere que hay métodos legítimos para rendir igual o un poco mejor que los Patriots, basta con mirar a los Falcons. A menos que quiera alegar que los Falcons también manipularon balones de fútbol. ( Otros tener también desde que refutó esta narrativa de torpes demuestra un comportamiento malicioso y corrigió lo que parece ser un defecto importante en el enfoque de Sharp: eliminar la cúpula equipos del análisis, en lugar de de una cúpula juegos. Cuando se hace ese cambio, los Patriots parecen tener un buen desempeño, pero no de manera extraña (ni siquiera los mejores).
En su haber, Afilado no discutió el punto cinco. Sin embargo, muchos lectores y reporteros curiosos dieron este salto causal. Sharp les ayudó con una frase exagerada de «casi imposible» para vender la historia.
Y ese es el problema de causalidad inversa al que nos enfrentamos. El big data expone todo tipo de valores atípicos y tendencias que no habíamos visto antes y asignamos las causas de forma un tanto imprudente, porque hace una buena historia o ayuda a confirmar nuestros sesgos. Lo ve todo el tiempo en su transmisión de Twitter: «7 gráficos que explican esto». O «El único gráfico que le dice por qué ocurre algo». Estamos mejorando cada vez más en el análisis y la visualización de macrodatos para detectar coincidencias, valores atípicos y tendencias. Cada vez es más fácil convencernos de narrativas específicas sin ningún dato real que las respalde.
La mayoría de los buenos análisis estadísticos serán narrativamente insatisfactorios, cargados de «no lo sabemos», «depende» y «los datos no pueden demostrarlo».
Puede ver cómo esto puede convertirse en un gran problema para las empresas que quieren explotar los macrodatos que están acumulando. Si piensa en la mayoría de los problemas prácticos de datos, suelen tener que ver con la causalidad inversa. Las ventas de un producto en particular se desplomaron repentinamente, ¿qué lo causó? El número de casos de sarampión se disparó en un vecindario, ¿cómo ocurrió? La gente con una marca de teléfono determinada tiende a comprar en determinadas tiendas, ¿por qué? En casos como estos, sabemos el resultado y, a menudo, desconocemos la causa.
La posibilidad de cualquier número de causas nos tienta a modernizar una narración, pero debemos resistirnos. El analista astuto es el que descubre cómo aportar una estructura manejable a este trabajo. Consulte este post del estadístico Andrew Gelman para obtener más información.
Mientras tanto, mantenga un sano escepticismo la próxima vez que alguien sugiera que ha encontrado la causalidad al revés. Sus afirmaciones pueden ser exageradas.
Nota del editor: Este artículo es una versión editada de un publicar que apareció originalmente en el blog del autor.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.