PathMBA Vault

Web-based technologies

El fracaso de Google Flu Trends demuestra buenos datos > Big Data

por Kaiser Fung

En su libro más vendido de 2013 Big Data: una revolución que transformará la forma en que vivimos, trabajamos y pensamos, los autores Viktor Mayer-Schönberger y Kenneth Cukier seleccionaron Google Flu Trends (GFT) como protagonista del primer capítulo. Explicaron cómo el algoritmo de Google extrajo cinco años de registros web, que contenían cientos de miles de millones de búsquedas, y creó un modelo predictivo con 45 términos de búsqueda que «demostró ser un indicador más útil y oportuno [de la gripe] que las estadísticas gubernamentales, con sus retrasos naturales en la presentación de informes».

Por desgracia, no. La primera señal de problemas surgió en 2009, poco después del lanzamiento de GFT, cuando pasó por alto por completo la pandemia de gripe porcina. El año pasado, Naturaleza denunció que las tendencias de la gripe sobreestimaron en un 50% el pico de gripe de la temporada navideña de 2012. La semana pasada llegó la evaluación más condenatoria de la historia. En Ciencia, un equipo de investigadores afiliados a Harvard publicó sus  hallazgos que la GFT ha sobreestimado la prevalencia de la gripe en 100 de las últimas 108 semanas; ha estado mal desde agosto de 2011. El Ciencia El artículo señala además que un modelo de previsión simplista —un modelo tan básico como el que predice la temperatura teniendo en cuenta las temperaturas del pasado reciente— habría pronosticado la gripe mejor que la GFT.

En resumen, no habría necesitado el big data para hacerlo mejor que Google Flu Trends. Ay.

De hecho, el mal historial de GFT no es un secreto para los seguidores del big data y de GFT como yo, y apunta a un pequeño problema en el negocio de los macrodatos del que muchos de nosotros hemos estado hablando: se exagera constantemente la validez de los datos. Como advierten los investigadores de Harvard: «El principal desafío es que la mayoría de los macrodatos que han recibido la atención popular no son el resultado de instrumentos diseñados para producir datos válidos y confiables que puedan analizarse científicamente».

La cantidad de datos sigue dominando el debate sobre el valor de los macrodatos. Sin embargo, más datos por sí solos no conducen a un mejor análisis, como ha demostrado ampliamente con Flu Trends. Los conjuntos de datos grandes no garantizan que los conjuntos de datos sean válidos. Es una mala suposición, pero se utiliza siempre para justificar el uso y los resultados de los proyectos de macrodatos. Escucho constantemente variaciones sobre el argumento de «N=Todo, son buenos datos», de analistas de datos reales: «Como Google tiene el 80% del mercado de búsquedas, podemos ignorar los demás motores de búsqueda. No importan». O: «Como Facebook tiene mil millones de cuentas, lo tiene prácticamente todo el mundo».

Las suposiciones erróneas no son nuevas ni impredecibles. Cuando los principales economistas no pudieron predecir colectivamente la burbuja inmobiliaria: su modelo neoclásico se basa en varios supuestos, incluida la hipótesis de los mercados eficientes, que sugiere que los precios de mercado incorporan todos información disponible y, como Paul Krugman dice, lleva a la «creencia general de que las burbujas simplemente no se producen».

Tras fracasos épicos como estos, el lugar natural para buscar respuestas es en la forma en que se definen las cosas en primer lugar. En la comunidad empresarial, la definición de macrodatos suele ser alguna variación de la ampliamente difundida de McKinsey informe de macrodatos (PDF), que define los macrodatos como «conjuntos de datos cuyo tamaño supera la capacidad de las herramientas de software de bases de datos típicas para capturar, almacenar, gestionar y analizar».

¿Podemos hacerlo mejor? Empecé a preguntarme a mí y a otros analistas de datos cuáles son las principales diferencias entre los conjuntos de datos que sustentan los proyectos actuales tipo GFT y los conjuntos de datos que utilizábamos hace cinco o 10 años. Esto ha llevado a lo que yo llamo el marco de la OCCAM, una evaluación más honesta del estado actual de los macrodatos y las suposiciones que se esconden en ellos.

El big data es:

O observacional: gran parte de los nuevos datos provienen de sensores o dispositivos de rastreo que monitorean de forma continua e indiscriminada sin diseño, a diferencia de cuestionarios, entrevistas o experimentos con un diseño intencional

Falta C Controles: los controles no suelen estar disponibles, lo que dificulta las comparaciones y los análisis válidos

Aparentemente C Completo: la disponibilidad de datos para la mayoría de las unidades medibles y el enorme volumen de datos generados no tienen precedentes, pero más datos crean más pistas falsas y callejones sin salida, lo que complica la búsqueda de una estructura significativa y predecible

UN adaptado: terceros recopilan los datos, a menudo con fines no relacionados con los de los científicos de datos, lo que presenta desafíos de interpretación

M fusionado: se combinan diferentes conjuntos de datos, lo que agrava los problemas relacionados con la falta de definición y la desalineación de los objetivos

Es una definición mucho menos optimista, pero es una valoración mucho más honesta del estado actual de los macrodatos.

El peor resultado del Ciencia artículo y el marco de la OCCAM, sin embargo, serían usarlos como prueba de que el big data «no vale la pena». Las valoraciones honestas tienen por objeto crear un progreso honesto, promover la disciplina en lugar de alimentar la moda.

El progreso se producirá cuando las empresas que participan en la generación y el procesamiento de los conjuntos de datos de OCCAM se abstengan de exagerar sus capacidades sin medir adecuadamente sus resultados. Los autores del Ciencia hay que aplaudir el artículo por su valentía al plantear este espinoso tema. Prestaron un servicio adicional a la comunidad científica al detallar la dificultad de evaluar y replicar el algoritmo desarrollado por los investigadores de Google Flu Trends. Descubrieron que la información publicada sobre el algoritmo es a la vez incompleta e inexacta. Utilizando el lenguaje reservado de los académicos, los autores señalaron: «Curiosamente, los pocos términos de búsqueda que ofrecen en los artículos [los investigadores de Google que explican su algoritmo] no parecen estar muy relacionados ni con los datos de GFT ni con los de los CDC: suponemos que los autores sintieron una necesidad desarticulada de ocultar los términos de búsqueda reales identificados.». [énfasis añadido]

En otras palabras, Google nos debe una explicación sobre si publicó datos manipulados sin revelarlos o si su tan promocionado modelo predictivo es tan impreciso que los términos de búsqueda que se encontraron más predictivos hace unos años ya no lo son. Si las empresas quieren participar en la ciencia, tienen que comportarse como científicos.

Al igual que a los investigadores de Harvard, me entusiasman las promesas del análisis de datos. Pero me gustaría que nuestra industria practicara lo que predicamos, realizando una evaluación honesta de nuestros propios éxitos y fracasos. Mientras tanto, las personas ajenas deberían prestar atención a los desafíos del análisis de macrodatos, tal como se resume en el marco de la OCCAM, y tener mucho cuidado al interpretar dichos análisis.