PathMBA Vault

Analytics and data science

Lo que nos enseñan los nombres populares para bebés sobre el análisis de datos

por Kaiser Fung

APR15_03_129305824

Un análisis típico de macrodatos es el siguiente: primero, un científico de datos encuentra algunos datos poco conocidos que se acumulan en un servidor. Luego, pasa días o semanas cortando y cortando los números y, finalmente, se topa con ideas inusuales. Luego, se organiza una reunión para presentar las conclusiones a los directores de empresas, tras la cual, el científico se siente descontento o incluso irrespetado, mientras que los gerentes desearían poder tomarse el tiempo atrás.

Cuando estas reuniones fracasan, los principales puntos de discusión suelen incluir un propósito poco claro, análisis con un enfoque demasiado limitado y un exceso de confianza en la ciencia, que desanima a los directores no técnicos. Si se enfrenta a esta situación, debería leer FiveThirtyEight artículo sobre la minería del conjunto de datos de nombres de bebés. Cuando termine, envíe el artículo a su equipo de análisis.

Lo que hicieron Nate Silver y Allison McCann de FiveThirtyEight con el conjunto de datos de nombres de bebés es un ejemplo para todos los analistas de datos: lo imbuyeron de un problema empresarial relevante, adjuntaron datos complementarios, hicieron una suposición en negrita, pero aceptable, de tapar un vacío en los datos y elaboraron su conclusión con un margen de error. Su artículo representa lo mejor del periodismo de datos. Supera a la mayoría de los ejemplos de análisis de macrodatos, tal como los conocemos.

Comisariado por la Administración del Seguro Social (SSA), el conjunto de datos uno de los nombres de todos los estadounidenses recién nacidos desde 1880 es una estrella del big data. En los últimos años, el conjunto de datos de nombres de bebés ha sido minado hasta la muerte (perdón por el juego de palabras). Su fama se remonta al científico informático Martin Wattenberg, quien creó el Nombres para bebés Voyager, una interfaz fácil de usar para visualizar los nombres de los bebés. El propósito de la Voyager es investigar qué nombres eran populares y cuándo. Desde Wattenberg, una línea de analistas ha llevado a cabo numerosos proyectos, como el más a la moda nombres, la mayoría envenenado nombres y la mayoría distintivo nombre por estado.

Todo esto de cortar y cortar en cubitos ha producido ideas que son poco más que fragmentos de sonido o cebo para clics. Y entonces, Silver y McCann entraron en escena.

Imbuyeron los datos de un problema empresarial relevante.

En lugar de preguntarse qué nombres eran populares (o envenenados, modernos o distintivos) en un período de tiempo determinado, los dos periodistas de datos dieron la vuelta a la pregunta e investigaron si el nombre de una persona proporciona información suficiente para adivinar cuándo nació.

Este encuadre del tema me recuerda inmediatamente a los problemas del mundo real de adivinar la religión o el idioma de una persona que se habla a partir de su nombre, lugar de residencia y otros factores. Muchas empresas sofisticadas utilizan estos datos demográficos para desarrollar la segmentación de los clientes. Si su empresa compra datos de terceros con esas variables, ya se está beneficiando del tipo de análisis que presentaron Silver y McCann. (En la práctica, la información directa sobre la edad de las personas está más disponible que la religión o los idiomas).

Adjuntaron datos complementarios.

Rara vez se da el caso de que un conjunto de datos contenga toda la información necesaria para resolver un problema empresarial. Los datos de la SSA contienen información sobre nacimientos pero no sobre defunciones. Un simple promedio de las fechas de nacimiento de cada Isabel que haya nacido lleva a una edad media muy exagerada, ya que algunas de esas personas ya no viven. Para realizar el análisis correctamente, los periodistas de datos incorporaron tablas de vida actuariales, que contienen estimaciones de las tasas de mortalidad.

Han arreglado un vacío en los datos.

Sin embargo, a los actuarios no les importan los nombres de pila. Las tasas de mortalidad se pueden dividir por género, pero no por nombre. El analista podría darse por vencido con el proyecto en este momento, o hacer una suposición y seguir adelante. Silver y McCann eligieron este último camino suponiendo que las tasas de mortalidad no varían según el nombre de pila. Es, sin lugar a dudas, un movimiento audaz, pero con el que me siento cómodo porque permite que el análisis alcance un estado satisfactorio. Los analistas de datos suelen tomar este tipo de decisiones en el transcurso de cualquier trabajo de big data. (Puede consultar las principales decisiones analíticas en las notas a pie de página del artículo.)

Elaboraron su conclusión con un margen de error.

Los potentes gráficos del artículo muestran claramente el posible error que se produce si se utilizan los nombres de pila para predecir la edad de una persona. Silver y McCann demostraron que el nivel de precisión depende del género y de la forma de la tendencia de popularidad. En algunos de los mejores ejemplos, pueden situar la edad de una persona dentro de los 10 años con un 50% de confianza. Con demasiada frecuencia, los informes de los medios de comunicación sobre los análisis de macrodatos omiten cualquier cuantificación de su precisión, una dura ironía dado que el campo pregonaba el método científico.

Todas las lecciones que se describen aquí se aplican fácilmente a cualquier equipo de análisis empresarial. En lugar de generar fragmentos de escasa relevancia empresarial, los científicos de datos deberían consultar pronto a sus socios comerciales y ponerse de acuerdo sobre un problema empresarial interesante antes de analizar los datos. A pesar de lo gigantescos que son muchos de los conjuntos de datos actuales, puede que aún carezcan de variables importantes, por lo que es necesario aumentarlos. El análisis de macrodatos es muy valorado porque puede ofrecer predicciones útiles, pero los analistas se equivocan cuando no incluyen un margen de error. Las decisiones empresariales acertadas requieren entender no solo el escenario más probable, sino también el abanico de posibilidades. A medida que la disciplina de la ciencia y el análisis de datos evolucione, el proceso de generación de información empresarial mejorará y habrá menos frustración generalizada cuando los equipos se reúnan para tratar proyectos de datos.