PathMBA Vault

Technology and analytics

Los mayores obstáculos del big data

por Alex “Sandy” Pentland

En mi último blog sobre Big Data, ofrecí una visión muy optimista de su promesa: los macrodatos pueden permitirnos ver y predecir el comportamiento humano de forma objetiva. Qué empieza de a poco: por ejemplo, ver a través de los datos cómo las personas en serio comer y moverse, puede convertirse en algo masivo, como la reforma del sistema de salud para abordar el comportamiento real.

Soy optimista con respecto al Big Data, pero también soy realista. Hay muchos obstáculos para llegar a un buen lugar con él. Estas son algunas de ellas:

El problema de la correlación: Cuando su volumen de datos es enorme, prácticamente cualquier problema que aborde generará un montón de respuestas «estadísticamente significativas». Las correlaciones abundan con el Big Data, pero inevitablemente la mayoría de ellas no son conexiones útiles. Por ejemplo, su conjunto de Big Data puede decirle que los lunes, las personas que conducen al trabajo en lugar de tomar el transporte público tienen más probabilidades de contraer gripe. Suena interesante, y los métodos de investigación tradicionales demuestran que es cierto desde el punto de vista fáctico. ¡Premio mayor!

Pero, ¿por qué es cierto? ¿Es causal? ¿Es solo un accidente? No lo sabe. Esto significa, curiosamente, que el método científico como lo usamos normalmente ya no funciona, porque hay tantas relaciones posibles que considerar que muchas van a ser «estadísticamente significativas». Como consecuencia, el proceso estándar de preguntas y respuestas basado en el laboratorio —el método que hemos utilizado para crear sistemas durante siglos— comienza a desmoronarse.

Lo que tenemos que encontrar son nuevas formas de comprobar la causalidad de las conexiones en el mundo real con mucha más frecuencia y antes que nunca. Ya no podemos confiar en los experimentos de laboratorio; tenemos que hacer los experimentos en el mundo real.

Esto desconcertará a muchos. Vivimos en una era que se basa en siglos de ciencia, y nuestros métodos de creación de sistemas, gobiernos, organizaciones, etc. están bien definidos. Pero con la llegada del Big Data, vamos a operar en gran medida fuera de nuestros antiguos y conocidos estadios.

El problema de la «comprensión humana». Encontrando las correlaciones en los datos son una cosa. Comprensión ellos de una manera que le permita crear un sistema nuevo y mejor es mucho más difícil. Tiene que haber un diálogo entre nuestra intuición humana y las estadísticas de Big Data, y eso no es algo que esté integrado en la mayoría de nuestros sistemas de gestión actuales. Tomemos el ejemplo de la gripe. ¿Cómo actuamos en consecuencia? ¿Lo creemos? ¿Qué nos dice nuestra intuición sobre ese hecho? Los gerentes tienen pocos conceptos sobre cómo utilizar el análisis de macrodatos, lo que quieren decir y en qué creer.

De hecho, los propios científicos de datos tampoco tienen mucha intuición, y ese es un problema aún mayor. Una estimación reciente sugirió que entre el 70 y el 80% de los resultados que se encuentran en la literatura sobre aprendizaje automático —que es un campo científico clave del Big Data— probablemente sean erróneos, porque los investigadores no entendieron que estaban sobreajustando los datos. No tenían ese diálogo entre la intuición y los procesos causales que generaban los datos, por un lado, y las estadísticas, por otro. Simplemente se ajustaban al modelo y consiguieron un buen número y lo publicaron (y los críticos tampoco lo vieron). Eso pone los datos incorrectos en el mundo, donde los utilizan profesionales que tampoco tienen la comprensión de los datos para actuar de manera crítica y adecuada.

Si empezamos a construir nuestro mundo a partir de resultados como estos, acabaremos con resultados desastrosos.

El problema de la procedencia. A principios de este año, organicé una sesión sobre Big Data en Davos y escuché a los directores ejecutivos de las principales empresas que prestan servicios en esta área. Dijeron que el mayor problema al que se enfrentaban al empezar con una aplicación de Big Data era sacar los datos de los silos y ponerlos en un formulario en el que pudieran utilizarse.

Pero esto no es solo un problema corporativo del tipo de variedad de jardines, consiga que sus departamentos compartan. Es más difícil que eso, porque con el Big Data, es normal que ninguna empresa sea propietaria de todos los datos que necesita: necesita nuevos tipos de colaboración, tanto con sus clientes como con otras empresas que atienden a sus clientes.

¿Cómo saca los datos de esos silos? El primer paso es averiguar quién es el propietario de esos datos, lo cual no siempre está claro. ¿La compañía telefónica posee la información sobre su ubicación mientras hablaba por teléfono? Tal vez tengan algún derecho a ello. ¿Y si los datos corresponden a una transacción con un comerciante? ¿Quién controla eso? ¿Quién puede usar y reutilizar esos datos? (Y pensó la Ley de Telecomunicaciones era complejo.)

Por desgracia para la mayoría de la gente presente en la sala de Davos, se trataba de un concepto completamente nuevo y no estaban nada al tanto.

El problema de la privacidad. Justo cuando las empresas comienzan a ver el poder del Big Data, los consumidores comienzan a preguntarse por su derecho a impedir la recopilación y el uso de cada dato que dejan. Puede imaginarse usar el Big Data para crear un mundo que sea increíblemente invasivo, increíblemente del «Gran Hermano»… de George Orwell_1984_ La visión palidece en comparación.

Durante los últimos años, he estado ayudando a organizar sesiones en el Foro Económico Mundial sobre el origen de los datos personales y la propiedad de los datos, y este esfuerzo ha terminado con bastante éxito con lo que yo llamo la Nuevo acuerdo sobre datos. El presidente de la Comisión Federal de Comercio, que ha formado parte del grupo, presentó los EE. UU. Declaración de derechos de privacidad de los datos del consumidor (PDF), y en la UE, el comisario de Justicia declaró que una versión de este New Deal era un derecho humano básico.

Ambas declaraciones reglamentarias ponen a la persona mucho más a cargo de los datos sobre ella. Este es un paso importante para que el Big Data sea más seguro y transparente, además de más líquido y disponible, porque la gente ahora puede elegir para compartir datos. Es una enorme mejora con respecto a tener los datos guardados en silos industriales donde nadie sabe ni siquiera que están ahí o qué se está haciendo con ellos.

_____________________

CENTRO DE INFORMACIÓN SOBRE MACRODATOS

Más »