Si sus datos son malos, sus herramientas de aprendizaje automático son inútiles
por Thomas C. Redman

Fotografía de Alan Schein/Getty Images
La mala calidad de los datos es el enemigo número uno del uso generalizado y rentable del aprendizaje automático. Si bien la cáustica observación de «basura entra, basura sale» ha plagado la analítica y la toma de decisiones durante generaciones, conlleva una advertencia especial para el aprendizaje automático. Las exigencias de calidad del aprendizaje automático son altas y los datos incorrectos pueden salir a la luz dos veces: primero en los datos históricos utilizados para entrenar el modelo predictivo y segundo en los nuevos datos utilizados por ese modelo para tomar decisiones futuras.
Para entrenar correctamente un modelo predictivo, los datos históricos deben cumplir unos estándares de calidad excepcionalmente amplios y altos. En primer lugar, los datos deben ser correctos: deben ser correctos, estar debidamente etiquetados, desduplicados, etc. Pero también debe tener el correcto datos: muchos datos imparciales, sobre toda la gama de entradas para las que se pretende desarrollar el modelo predictivo. La mayoría de los trabajos sobre la calidad de los datos se centran en un criterio u otro, pero para el aprendizaje automático, debe trabajar en ambos simultáneamente.
Sin embargo, hoy, la mayoría de los datos no cumplen con los estándares básicos de «los datos son correctos». Los motivos van desde que los creadores de datos no entienden lo que se espera, hasta un equipo de medición mal calibrado, procesos demasiado complejos y un error humano. Para compensar, los científicos de datos limpian los datos antes de entrenar el modelo predictivo. Es un trabajo tedioso y lento (tomando hasta el 80% del tiempo de los científicos de datos), y es el problema del que más se quejan los científicos de datos. Incluso con esos esfuerzos, la limpieza no detecta ni corrige todos los errores y, hasta el momento, no hay forma de entender el impacto en el modelo predictivo. Es más, los datos no siempre cumplen con los estándares de «los datos correctos», como los informes de sesgo en el reconocimiento facial y justicia penal dar fe.
Los problemas cada vez más complejos exigen no solo más datos, sino datos más diversos y completos. Y con esto vienen más problemas de calidad. Por ejemplo, las notas manuscritas y las siglas locales han complicado los esfuerzos de IBM por aplicar el aprendizaje automático (por ejemplo, Watson) al tratamiento del cáncer.
La calidad de los datos no es menos problemática en la implementación. Piense en una organización que busca aumentar la productividad con su programa de aprendizaje automático. Si bien el equipo de ciencia de datos que desarrolló el modelo predictivo pudo haber hecho un buen trabajo limpiando los datos de entrenamiento, aún puede verse comprometido por datos incorrectos en el futuro. De nuevo, se necesitan personas —muchas de ellas— para encontrar y corregir los errores. Esto, a su vez, subvierte los esperados aumentos de productividad. Además, a medida que las tecnologías de aprendizaje automático penetren en las organizaciones, el resultado de un modelo predictivo alimentará al siguiente, y al siguiente, y así sucesivamente, incluso cruzando los límites de la empresa. El riesgo es que un error menor en un paso se produzca en cascada, lo que provoque más errores y aumente cada vez más a lo largo de todo el proceso.
Estas preocupaciones deben abordarse con un programa de calidad agresivo y bien ejecutado, mucho más complejo de lo necesario para el día a día. Exige que los líderes del esfuerzo general tomen las cinco medidas siguientes.
Primero, aclare sus objetivos y evalúe si tiene los datos correctos para respaldarlos. Piense en una empresa de originación de hipotecas que quiera aplicar el aprendizaje automático a su proceso de préstamo. ¿Debería conceder el préstamo y, de ser así, en qué condiciones? Los posibles objetivos del uso del aprendizaje automático incluyen:
- Reducir el coste del proceso de decisión actual. Como tomar mejores decisiones no es un objetivo, los datos existentes podrían ser adecuados.
- Eliminar el sesgo del proceso de decisión actual. Es casi seguro que este sesgo se refleja en sus datos actuales. Proceda con cautela.
- Mejorar el proceso de toma de decisiones: conceder menos préstamos en mora y aprobar los préstamos rechazados anteriormente que rindan. Tenga en cuenta que, si bien la empresa tiene datos de sobra sobre las hipotecas rechazadas anteriormente, no sabe si estas hipotecas habrían rendido. Proceda con extrema cautela.
Cuando los datos no alcanzan los objetivos, el mejor recurso es encontrar nuevos datos, reducir los objetivos o ambas cosas.
En segundo lugar, dedique tiempo suficiente para incluir los fundamentos de la calidad de los datos en su plan general de proyecto. Para la formación, esto significa cuatro meses/persona de limpieza por cada mes/persona que cree el modelo, ya que debe medir los niveles de calidad, evaluar las fuentes, deduplicar y limpiar los datos de entrenamiento, tanto como lo haría para cualquier análisis importante. Para las implementaciones, es mejor eliminar las causas principales del error y así minimizar la limpieza continua. Hacerlo tendrá el efecto saludable de eliminar las fábricas de datos ocultas y también le ahorrará tiempo y dinero en las operaciones. Empiece este trabajo lo antes posible y al menos seis meses antes de que quiera dar rienda suelta a su modelo predictivo.
En tercer lugar, mantenga un registro de auditoría mientras prepara los datos de entrenamiento. Guarde una copia de sus datos de entrenamiento originales, los datos que utilizó en el entrenamiento y los pasos utilizados para pasar del primero al segundo. Hacerlo es simplemente una buena práctica (aunque muchos se lo saltan imprudentemente) y puede que le ayude a realizar las mejoras del proceso que necesitará para utilizar su modelo predictivo en futuras decisiones. Además, es importante entender los sesgos y las limitaciones de su modelo y el registro de auditoría puede ayudarlo a solucionarlo.
En cuarto lugar, acuse a una persona (o equipo) específica de la responsabilidad por la calidad de los datos cuando dé a conocer su modelo. Esta persona debe tener un conocimiento profundo de los datos, incluidos sus puntos fuertes y débiles, y tener dos objetivos. En primer lugar, día tras día, establecen y hacen cumplir los estándares de calidad de los datos entrantes. Si los datos no son lo suficientemente buenos, los humanos deben tomar el relevo. En segundo lugar, lideran los esfuerzos continuos para encontrar y eliminar las causas fundamentales del error. Este trabajo ya debería haber empezado y debe continuar.
Por último, obtenga un control de calidad independiente y riguroso. Tal como se usa aquí, el control de calidad es el proceso de garantizar que el programa de calidad proporciona los resultados deseados. La consigna aquí es independiente, así que este trabajo debería ser realizado por otras personas: un departamento de control de calidad interno, un equipo ajeno al departamento o un tercero cualificado.
Incluso después de seguir estos cinco pasos, descubrirá que sus datos no son perfectos. Es posible que pueda tener en cuenta algunos problemas menores de calidad de los datos en el modelo predictivo, como la falta de un solo valor entre las quince variables más importantes. Para explorar esta área, combine a los científicos de datos con sus empresarios más experimentados para preparar los datos y entrenar el modelo. Laura Kornhauser, de Stratyfy, Inc., una startup centrada en llevar la transparencia y la responsabilidad a la inteligencia artificial, lo expresó así: «Reúna a sus empresarios y científicos de datos lo antes posible. Los empresarios, en particular, han lidiado con datos incorrectos desde siempre, y tiene que incorporar su experiencia en su modelo predictivo».
¿Parece mucho? Lo es. Pero el aprendizaje automático tiene un poder increíble y tiene que aprender a aprovechar ese poder. La mala calidad de los datos puede provocar que esa energía se retrase, se niegue o se utilice indebidamente, lo que justifica plenamente cada esfuerzo.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.