Cómo reparar sus datos

por Thomas C. Redman

No puede dejar de impresionarse con el esfuerzo que los biólogos, físicos y otros científicos dedican a la calidad de los datos. Desde el diseño cuidadoso de los experimentos y los procesos de recopilación de datos hasta la definición explícita de los términos y los esfuerzos exhaustivos para garantizar que los datos son correctos, no se escatima ningún esfuerzo. Esto no es sorprendente. Al fin y al cabo, los datos son el elemento vital de la ciencia.

Cada vez más, los datos también son el elemento vital de las empresas y el gobierno. Y la atención que la ciencia presta a la calidad de los datos ofrece lecciones importantes, especialmente para los interesados en los «Big Data».

En pocas palabras, los datos incorrectos dificultan todo lo relacionado con el Big Data, desde descubrir algo realmente novedoso hasta crear un producto o servicio en torno a ese descubrimiento y monetizar el descubrimiento. Los dos problemas más importantes son:

Los datos están mal definidos, lo que lleva a interpretaciones incorrectas.
Los datos simplemente son incorrectos, incompletos o anticuados, lo que genera problemas en todo momento.

Peor aún, en los negocios, los datos incorrectos pueden ser francamente peligrosos. Tenga en cuenta que, a mediados de la década de 2000, las compañías financieras hicieron un excelente trabajo al dividir, cortar en cubitos y empaquetar el riesgo al crear obligaciones de deuda colateralizadas (CDO). Pero o no sabían o no les importaba que demasiados de los datos hipotecarios utilizados para crearlos fueran incorrectos. Al final, por supuesto, los datos incorrectos se hicieron valer por sí solos. Y el sistema financiero estuvo a punto de colapsar.

Los primeros programadores de ordenadores reconocieron que tener datos incorrectos era un problema y acuñaron la expresión «basura entra, basura sale». La actualización del Big Data es «mucha basura que entra, gran basura TÓXICA que sale».

Este ejemplo y esta observación subrayan un punto muy crítico: Pase lo que pase, no subestime el problema de la calidad de los datos ni el esfuerzo necesario para resolverlo. Debe ponerse al frente de la calidad de los datos. Puede mejorar los datos de forma sistemática siguiendo estas recomendaciones, inspiradas en las mejores tradiciones científicas y los esfuerzos de las principales empresas para traducir esas tradiciones a la práctica empresarial. Para empezar, piense que los problemas de calidad de los datos se dividen en dos categorías, cada una de las cuales requiere un enfoque diferente.

Abordar problemas preexistentes. Hay algunos problemas que ya se han creado y no tiene más opción que solucionarlos antes de utilizar los datos de forma seria. Es un trabajo lento, caro y exigente. Debe asegurarse de entender la procedencia de todos los datos, lo que realmente significan y su calidad. Paralelamente, debe limpiar los datos. Cuando estuve en los Laboratorios Bell, en las décadas de 1980 y 90, utilizábamos la expresión «enjuagar, lavar, fregar» para hacer esfuerzos cada vez más sofisticados para encontrar y corregir los errores (o al menos eliminarlos de los análisis posteriores). Para Big Data, enjuagar, lavar y fregar por completo puede resultar inviable. Una alternativa es completar el ciclo de enjuagar, lavar y fregar para obtener una muestra pequeña, repetir los análisis críticos con estos datos «validados» y comparar los resultados. Para que quede claro, ¡esta alternativa debe utilizarse con extrema cautela!

Pero no basta con limpiar los datos erróneos. La enorme cantidad de datos nuevos que se crean o llegan crece demasiado rápido como para mantenerse al día. A largo plazo, la única manera de solucionar los problemas de calidad de los datos es evitarlos.

Evite los problemas que aún no se han producido. Aquí es donde las tradiciones científicas de «acercarse a los datos» y «crear calidad» son más instructivas para los profesionales del Big Data. Ya he mencionado el cuidado que ponen los científicos al diseñar sus experimentos, los esfuerzos que hacen para definir los términos y los esfuerzos que hacen para entender la recopilación de datos de principio a fin. También incorporan controles (como la calibración del equipo de pruebas) para la recopilación de datos, identifican y eliminan las causas principales de los errores y mejoran el equipo cada vez que tienen la oportunidad. Mantienen registros de errores y someten sus datos al escrutinio de sus compañeros. Esta lista puede seguir y seguir.

Quienes se dedican al Big Data deben adaptar estas tradiciones a sus circunstancias. Los datos más importantes se utilizan para muchas cosas (no solo para el análisis de Big Data), por lo que debe especificar las diferentes necesidades de las personas que los utilizan. Como los datos provienen de muchas fuentes, debe asignar gerentes a procesos interfuncionales y a proveedores externos importantes, y asegurarse de que los creadores de datos entienden lo que se espera. Debe medir la calidad, incorporar controles que detengan los errores en su camino y aplicar Six Sigma y otros métodos para llegar a las causas fundamentales. Debe reconocer que todo el mundo toca los datos y puede afectar a la calidad, por lo que debe hacer que participen en el esfuerzo.

Curiosamente, una vez que se acostumbra, ninguno de los trabajos para evitar errores es particularmente difícil. Pero demasiadas organizaciones no se esfuerzan. Hay docenas de razones —excusas, en realidad—, desde la creencia de que «si está en el ordenador, debe ser responsabilidad de TI», hasta la falta de comunicación entre silos y la aceptación ciega del status quo. Si bien no quiero minimizar estas cuestiones, ninguna resiste el escrutinio.

Como he opinado en otros lugares, es hora de que los altos directivos se pongan muy nerviosos con la calidad de los datos, asuman las responsabilidades gerenciales correctas y exijan una mejora. Para datos incorrectos, no se limite a arruinar los Big Data. Ellos estropean todo lo que tocan, añadiendo costes a las operaciones, enfureciendo a los clientes y dificultando la toma de buenas decisiones. Los síntomas son a veces agudos, pero el problema subyacente es crónico. Exige una respuesta urgente y completa. Especialmente por aquellos que esperan triunfar con el Big Data.

_____________________

CENTRO DE INFORMACIÓN SOBRE MACRODATOS

Más »

Anterior Siguiente

Artículos Relacionados

Investigación: La IA generativa hace que la gente sea más productiva y esté menos motivada

Arreglar los chatbots requiere psicología, no tecnología

Los chatbots dotados de IA se están convirtiendo en el nuevo estándar para la gestión de consultas, reclamaciones y devoluciones de productos, pero los clientes se alejan de las interacciones con los chatbots sintiéndose decepcionados. La mayoría de las empresas intentan solucionar este problema diseñando mejores modelos de IA en sus chatbots, pensando que si los modelos suenan lo suficientemente humanos, el problema acabará desapareciendo. Pero esta suposición es errónea. Esto se debe a que el problema de fondo no es tecnológico. Es psicológico: Hay que engatusar a la gente para que vea a los chatbots como un medio positivo de interacción. Los autores han analizado recientemente las últimas investigaciones sobre chatbots e interacciones IA-humanos, y en este artículo presentan seis acciones probadas que puede llevar a cabo al desplegar su chatbot de IA para impulsar la satisfacción, la percepción positiva de la marca y las ventas.

Investigación: ¿Está penalizando a sus mejores empleados por desconectar?

Para combatir el creciente desgaste del personal, muchas empresas han defendido programas de bienestar y han fomentado un enfoque renovado en el equilibrio entre la vida laboral y personal. Pero un nuevo estudio descubrió que incluso cuando los líderes reconocían que desvincularse del trabajo aumenta el bienestar de los empleados y mejora su rendimiento laboral, los directivos seguían penalizando a los empleados que adoptaban estos comportamientos cuando optaban a un ascenso o estaban siendo considerados para un nuevo puesto. Basándose en sus conclusiones, los investigadores ofrecen sugerencias para ayudar a las empresas a crear políticas y construir una cultura que proteja los límites de los trabajadores, evite el agotamiento y recompense el trabajo fuerte.