Cómo reparar sus datos
por Thomas C. Redman
No puede dejar de impresionarse con el esfuerzo que los biólogos, físicos y otros científicos dedican a la calidad de los datos. Desde el diseño cuidadoso de los experimentos y los procesos de recopilación de datos hasta la definición explícita de los términos y los esfuerzos exhaustivos para garantizar que los datos son correctos, no se escatima ningún esfuerzo. Esto no es sorprendente. Al fin y al cabo, los datos son el elemento vital de la ciencia.
Cada vez más, los datos también son el elemento vital de las empresas y el gobierno. Y la atención que la ciencia presta a la calidad de los datos ofrece lecciones importantes, especialmente para los interesados en los «Big Data».
En pocas palabras, los datos incorrectos dificultan todo lo relacionado con el Big Data, desde descubrir algo realmente novedoso hasta crear un producto o servicio en torno a ese descubrimiento y monetizar el descubrimiento. Los dos problemas más importantes son:
- Los datos están mal definidos, lo que lleva a interpretaciones incorrectas.
- Los datos simplemente son incorrectos, incompletos o anticuados, lo que genera problemas en todo momento.
Peor aún, en los negocios, los datos incorrectos pueden ser francamente peligrosos. Tenga en cuenta que, a mediados de la década de 2000, las compañías financieras hicieron un excelente trabajo al dividir, cortar en cubitos y empaquetar el riesgo al crear obligaciones de deuda colateralizadas (CDO). Pero o no sabían o no les importaba que demasiados de los datos hipotecarios utilizados para crearlos fueran incorrectos. Al final, por supuesto, los datos incorrectos se hicieron valer por sí solos. Y el sistema financiero estuvo a punto de colapsar.
Los primeros programadores de ordenadores reconocieron que tener datos incorrectos era un problema y acuñaron la expresión «basura entra, basura sale». La actualización del Big Data es «mucha basura que entra, gran basura TÓXICA que sale».
Este ejemplo y esta observación subrayan un punto muy crítico: Pase lo que pase, no subestime el problema de la calidad de los datos ni el esfuerzo necesario para resolverlo. Debe ponerse al frente de la calidad de los datos. Puede mejorar los datos de forma sistemática siguiendo estas recomendaciones, inspiradas en las mejores tradiciones científicas y los esfuerzos de las principales empresas para traducir esas tradiciones a la práctica empresarial. Para empezar, piense que los problemas de calidad de los datos se dividen en dos categorías, cada una de las cuales requiere un enfoque diferente.
Abordar problemas preexistentes. Hay algunos problemas que ya se han creado y no tiene más opción que solucionarlos antes de utilizar los datos de forma seria. Es un trabajo lento, caro y exigente. Debe asegurarse de entender la procedencia de todos los datos, lo que realmente significan y su calidad. Paralelamente, debe limpiar los datos. Cuando estuve en los Laboratorios Bell, en las décadas de 1980 y 90, utilizábamos la expresión «enjuagar, lavar, fregar» para hacer esfuerzos cada vez más sofisticados para encontrar y corregir los errores (o al menos eliminarlos de los análisis posteriores). Para Big Data, enjuagar, lavar y fregar por completo puede resultar inviable. Una alternativa es completar el ciclo de enjuagar, lavar y fregar para obtener una muestra pequeña, repetir los análisis críticos con estos datos «validados» y comparar los resultados. Para que quede claro, ¡esta alternativa debe utilizarse con extrema cautela!
Pero no basta con limpiar los datos erróneos. La enorme cantidad de datos nuevos que se crean o llegan crece demasiado rápido como para mantenerse al día. A largo plazo, la única manera de solucionar los problemas de calidad de los datos es evitarlos.
Evite los problemas que aún no se han producido. Aquí es donde las tradiciones científicas de «acercarse a los datos» y «crear calidad» son más instructivas para los profesionales del Big Data. Ya he mencionado el cuidado que ponen los científicos al diseñar sus experimentos, los esfuerzos que hacen para definir los términos y los esfuerzos que hacen para entender la recopilación de datos de principio a fin. También incorporan controles (como la calibración del equipo de pruebas) para la recopilación de datos, identifican y eliminan las causas principales de los errores y mejoran el equipo cada vez que tienen la oportunidad. Mantienen registros de errores y someten sus datos al escrutinio de sus compañeros. Esta lista puede seguir y seguir.
Quienes se dedican al Big Data deben adaptar estas tradiciones a sus circunstancias. Los datos más importantes se utilizan para muchas cosas (no solo para el análisis de Big Data), por lo que debe especificar las diferentes necesidades de las personas que los utilizan. Como los datos provienen de muchas fuentes, debe asignar gerentes a procesos interfuncionales y a proveedores externos importantes, y asegurarse de que los creadores de datos entienden lo que se espera. Debe medir la calidad, incorporar controles que detengan los errores en su camino y aplicar Six Sigma y otros métodos para llegar a las causas fundamentales. Debe reconocer que todo el mundo toca los datos y puede afectar a la calidad, por lo que debe hacer que participen en el esfuerzo.
Curiosamente, una vez que se acostumbra, ninguno de los trabajos para evitar errores es particularmente difícil. Pero demasiadas organizaciones no se esfuerzan. Hay docenas de razones —excusas, en realidad—, desde la creencia de que «si está en el ordenador, debe ser responsabilidad de TI», hasta la falta de comunicación entre silos y la aceptación ciega del status quo. Si bien no quiero minimizar estas cuestiones, ninguna resiste el escrutinio.
Como he opinado en otros lugares, es hora de que los altos directivos se pongan muy nerviosos con la calidad de los datos, asuman las responsabilidades gerenciales correctas y exijan una mejora. Para datos incorrectos, no se limite a arruinar los Big Data. Ellos estropean todo lo que tocan, añadiendo costes a las operaciones, enfureciendo a los clientes y dificultando la toma de buenas decisiones. Los síntomas son a veces agudos, pero el problema subyacente es crónico. Exige una respuesta urgente y completa. Especialmente por aquellos que esperan triunfar con el Big Data.
_____________________
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.