Asegúrese de que los datos de alta calidad impulsen su IA
por Thomas C. Redman

Hace veinte años, los valores respaldados por hipotecas y las obligaciones de deuda con garantía estaban de moda. Estos nuevos productos financieros fueron, al principio, una maravilla: ayudaron a poner a millones de personas en hogares y a ganar miles de millones para los bancos. Entonces las cosas salieron muy mal y estuvieron a punto de hundir la economía mundial.
La crisis financiera de 2007-2009 se ha estudiado desde muchos puntos de vista, pero vista desde el punto de vista de la ciencia de datos, ofrece dos ideas que sirven de advertencia para la inteligencia artificial y el aprendizaje automático (a los que simplemente llamaré IA) en la actualidad:
En primer lugar, el trabajo analítico para dividir y dividir las hipotecas en productos que se ajustaran a los diferentes perfiles de riesgo-recompensa de los inversores fue bastante bueno. Pero los resultados dependían de que los datos fueran de alta calidad.
En segundo lugar, los datos no eran, de hecho, de alta calidad. A cada paso aparecían datos incorrectos o faltantes, desde información incorrecta (a veces fraudulenta) en las solicitudes de hipoteca hasta puntuaciones crediticias y valoraciones de valores incorrectas, pérdida de papeleo y falta de claridad en las obligaciones de los bancos. Los datos deficientes llevaron a los bancos a subestimar ampliamente los riesgos, lo que llevó a un número inesperado de ejecuciones hipotecarias, lo que a su vez provocó que los bancos no confiaran en las declaraciones de pasivos de los demás y que el sistema bancario se congelara.
La lección central de esta historia es simple: buena ciencia de datos + datos malos = malos resultados empresariales.
¿Qué tiene que ver esto con la IA? Por un lado, el bombo en torno a la IA es mucho mayor y más generalizado que el bombo en torno a los productos financieros. Peor:
- Los cálculos utilizados para dividir las hipotecas se entendieron bien. Por el contrario, ni siquiera los expertos están seguros de por qué la IA hace las predicciones que hace.
- Los requisitos de calidad de la IA son mucho más amplios y profundos.
- Si bien el trabajo de análisis de los productos financieros lo realizaban profesionales que entendían, o deberían haber entendido, la importancia de los datos de calidad, mejores herramientas hacen que la IA sea accesible a las personas que están menos informadas sobre todo lo que puede salir mal.
La IA no tiene por qué fallar a escala mundial para causar un daño enorme a las personas, las empresas y las sociedades. Las modelos con frecuencia se equivocan, alucinan, se quedan a la deriva y pueden derrumbarse. Cada uno tiene su favorita: «mire la ridícula respuesta que me dio una modelo lingüística grande» o» Historia de un desastre de la IA.» Junto con la alta tasa de fracasos de los proyectos de IA, no es difícil entender por qué pocas empresas pueden citar un ROI positivo.
Las advertencias sobre la calidad de los datos han sido abundantes y provienen de fuentes tan diversas como las que lideraron la revolución de la IA, como Google, Meta, IA abierta; investigadores destacados; y la prensa popular, incluida la Nuevo York Times, y el Economista. Forrester, la firma de investigación, informa que» La calidad de los datos es ahora el principal factor que limita la adopción de la IA de generación.» Sin embargo, la mayoría de las empresas ni siquiera han empezado el trabajo que tienen que hacer.
El interés principal aquí son los primeros proyectos de IA de una empresa. Es importante destacar que la calidad de los datos es un tema (y una oportunidad) enorme para toda la organización, pero la mayoría de las empresas la han descuidado. Una consecuencia es que ellos y sus principales líderes no entienden los problemas, cómo abordarlos ni los cambios organizativos que deben realizar. Están en una situación difícil: deben protegerse a corto plazo, desarrollar las capacidades necesarias a largo plazo y, al mismo tiempo, educarse para que puedan hacerlo de forma eficaz. Este artículo tiene como objetivo ayudarlos a empezar.
Entender el problema
Cualquier proyecto de ciencia de datos debe empezar con una idea sensata sobre el problema que se quiere resolver. Para ilustrarlo, piense: «¿Necesitamos una forma mejor de decidir qué préstamos conceder y en qué condiciones?» Exponer claramente el problema implica hacer y responder preguntas, como «mejor, ¿cómo?» y «¿qué préstamos a quién (por ejemplo, la población con intereses)?»
Las respuestas están a la hora de determinar los datos que necesita. Por ejemplo:
- Si «mejor» significa libre de sesgos, necesitará datos de entrenamiento sin sesgos, que pueden ser muy difíciles de conseguir.
- Si «mejor» significa más «préstamos con rendimiento» y menos «préstamos morosos», necesita datos sobre los préstamos que no ha concedido históricamente.
- Si «mejor» significa decisiones que pueden explicarse más fácilmente a los reguladores, puede que la IA no sea su mejor enfoque, ya que la «explicabilidad» es tremendamente difícil.
- Si «mejor» significa «funcionará en partes del mundo en las que actualmente no operamos ni tenemos datos», se enfrenta a un duro desafío.
- Si «mejor» significa un proceso general más barato, puede que sus datos históricos estén bien.
Llegar a un acuerdo sobre el problema puede ser muy político. Quienes desean incorporar la IA a la organización pueden estar motivados por completar un «caso de uso» para demostrar que la IA funciona, mientras que otros quieren disipar los temores de que la competencia siga adelante a rabiar y otros tal vez deseen quitarse de encima a los reguladores. Todas esas perspectivas son valiosas y es tentador seguir adelante antes de que el problema esté claramente establecido. Hacerlo es desacertado.
Obtención correcta de los datos
«La basura entra, la basura sale» puede ser una regla general útil, pero me parece práctico enmarcar la idea de datos buenos en dos requisitos: 1) si se trata de los «datos correctos» para abordar el problema y 2) si esos «datos son correctos» o correctos. Los criterios para esto último son más familiares para la mayoría de la gente: precisión, ausencia de duplicados, etc. Tener los «datos correctos» es menos familiar, más sutil y complejo, pero también es esencial.
Al ordenar el datos correctos para un proyecto, considere:
- Relevancia e integridad: La IA depende de los datos con poder predictivo, es decir, de los datos relevantes para el problema en cuestión. Por ejemplo, atributos como la edad, el historial de pagos y los ingresos son claramente relevantes para la decisión de préstamo. La integridad implica tener tantos atributos de datos relevantes como sea posible.
- Exhaustividad y representación adecuada: Las dos cuestiones principales son «¿Los datos cubren adecuadamente a la población de interés (exhaustividad) y a todas las subpoblaciones (representación adecuada) de interés?» Al fin y al cabo, se necesitan muchos datos para entrenar correctamente un modelo. Para ilustrar una representación adecuada, tenga en cuenta que si desea que su modelo funcione en todo el mundo, necesitará datos de todo el mundo.
- Libre de prejuicios: Reducir los prejuicios históricos es (o debería ser) importante en la mayoría de los problemas relacionados con los humanos. Lamentablemente, muchos conjuntos de datos reflejan sesgos históricos y eliminar esos sesgos de los conjuntos de datos puede ser casi imposible. En esas situaciones, las empresas no deberían utilizar la IA.
- Puntualidad: La cuestión esencial es «¿qué tan nuevos deben ser los datos?» En el ejemplo de los préstamos, tomar decisiones rápidamente con los datos más actualizados puede resultar una fuente de ventaja competitiva.
- Definición clara: La mayoría de los esfuerzos de IA recopilan datos de fuentes dispares y un buen conocimiento de esas fuentes y los datos que proporcionan facilita su combinación. Las definiciones claras de las fuentes, los atributos de los datos y las unidades de medida facilitan el desarrollo de esta comprensión.
- Exclusiones apropiadas: Determinados datos deben excluirse por motivos legales, reglamentarios, éticos y de propiedad intelectual. Por ejemplo, el uso de códigos postales puede sustituir a la raza en las decisiones de préstamo y debe evitar infringir las leyes que estipulan el uso de la información de identificación personal (PII). Además, existe una creciente preocupación de que los modelos de IA formados en fuentes públicas puedan infringir los derechos de propiedad intelectual.
Lo más importante derechos de datos consideraciones:
- Precisión: La precisión es probablemente la característica más conocida de la calidad de los datos. La idea esencial es que los valores de los datos deben ser «correctos», es decir, deben reflejar la realidad. A través de sutilezas, como «¿qué tan cerca deben los valores de los datos representar la realidad?» son a veces importantes, la mayoría de los conjuntos de datos estructurados están plagados de errores. Y es lógico que los documentos (datos no estructurados), que se utilizan para entrenar modelos lingüísticos grandes, estén en peor estado.
- Ausencia de duplicados: Es fácil que las entradas duplicadas entren en las bases de datos y pueden sesgar los resultados. Por lo tanto, deben mantenerse al mínimo
- Identificadores coherentes: Al recopilar los datos del préstamo, es «John Smith», con una cuenta corriente, y ese «J. E. Smith», con una línea de crédito con garantía hipotecaria, la misma persona. Tiene que saberlo para poder integrar los datos.
- Etiquetado correcto: Las buenas etiquetas de datos (por ejemplo, «esto es un gato», «este préstamo es rentable») mejoran los modelos de IA.
El trabajo de calidad de los datos no termina con la formación. Entrene bien un modelo con datos de alta calidad y obtendrá un buen modelo. Pero si alimenta a ese modelo con «datos futuros» malos, obtendrá malos resultados/predicciones. Tanto el criterio de «los datos son correctos» como el de «datos correctos» siguen en vigor.
Una mujer era negó los analgésicos porque le recetaron a su perro (es decir, los datos eran incorrectos). Esto llevó a una modelo a etiquetarla como en riesgo de adicción a los opioides. Del mismo modo, alimente a un modelo con datos más allá del ámbito en el que se ha entrenado y no se sabe lo que pasará. Esto ocurre con bastante frecuencia porque las condiciones en el mundo han cambiado, lo que ha llevado a la entrada de datos desde nuevos dominios y, a menudo, ha reducido el rendimiento del modelo. A veces el deterioro es grave. El chatbot Tay de Microsoft, que empezó a escupir discursos de odio cuando los usuarios le daban frases viles, en las que no estaba entrenado, sirve como un cuento con moraleja.
A corto plazo, adopte una postura de «culpable hasta que se demuestre su inocencia».
El paso más importante en cualquier proyecto o programa de calidad de datos consiste en «asumir correctamente las responsabilidades de gestión». Y para cualquier proyecto de IA, es tentador asignar calidad a las personas más cercanas a la obra, incluidos los modeladores, los ingenieros de datos y los analizadores de datos. Si bien todos pueden hacer un buen trabajo para entender las fuentes y limpiar los datos, no están preparados para reunir todos los esfuerzos necesarios. A modo de ejemplo, «definir el problema» es una cuestión empresarial, no una cuestión de modelización, ingeniería o negociación.
A nivel de proyecto, la responsabilidad general de la calidad de los datos debe recaer en la persona de más alto nivel que dirija la iniciativa. Deben reunir equipos de personas que puedan desarrollar todos los requisitos y profundizar en los detalles para garantizar que se cumplen. Deberían considerar la posibilidad de adquirir talento externo si, como suele ocurrir, sus empresas carecen de la amplitud y profundidad de las habilidades necesarias para hacerlo.
Los propios directores deberían interrogar sin descanso a los equipos de desarrollo de modelos y a otros sobre todo_._ Empiece con «¿El problema que se propuso resolver y nuestro problema son los mismos?» Si no, tenga mucho cuidado. Luego, analice los criterios correctos de datos de entrenamiento uno por uno. Profundice: ¿qué le hace pensar que los datos arrojarán buenas predicciones, apoyarán la extensión del modelo a nuevos mercados y están libres de sesgos? Tenga cuidado cuando los vendedores se nieguen a responder, alegando que «nuestro modelo es patentado». El modelo puede ser propietario, pero eso no significa que los datos lo sean.
Con respecto al «derecho a los datos», es casi seguro que los modeladores necesitan realizar una limpieza exhaustiva de los datos de entrenamiento. Pídales que detallen cómo midieron la precisión antes y después de la limpieza, cómo encontraron y eliminaron los duplicados, cómo aseguraron la integración de los datos y cómo se aseguraron de que las etiquetas eran correctas. Esfuércese mucho y, si detecta alguna suavidad en las respuestas, insista en que los modeladores obtengan mejores respuestas.
Las responsabilidades de gestión se extienden a los datos del futuro. Los gerentes deben supervisar los datos futuros de forma agresiva para asegurarse de que no se alejan demasiado de los límites de los datos en los que se han entrenado. Deben insistir en los controles exhaustivos para asegurarse de que los datos futuros son lo más completos y precisos posible.
Por último, los principales líderes y juntas directivas también debería insistir en el control de calidad , en forma de revisión independiente para garantizar que todos los temas aquí mencionados se entienden, abordan y se actúa de manera adecuada. Especialmente al principio, demasiado control de calidad es mejor que muy poco.
A medio plazo, impulsar los esfuerzos de calidad en sentido ascendente.
Los científicos de datos, como todos los demás en una empresa, dependen de otros para obtener datos. El marketing crea los datos que utilizan las ventas; las ventas crean los datos que utilizan las operaciones, los que crean modelos de IA utilizan los datos creados por muchas fuentes y, a su vez, crean datos en forma de predicciones. Hoy en día, cada grupo dedica una cantidad desmesurada de tiempo a tratar datos incorrectos: quizás Un 30% en toda la empresa y Un 80% en ciencia de datos.
Afortunadamente, hay una manera mejor: eliminar las causas principales de los datos incorrectos en sentido ascendente y los que están en sentido descendente no tienen que solucionarlos. Este enfoque se basa en lo que funcionó en la fabricación y ha demostrado su eficacia una y otra vez en empresas como AT&T, Banco del Golfo, Chevron, y otros. En la práctica, esto funciona mejor cuando los grupos descendentes asumen funciones de clientes de datos; los grupos ascendentes asumen funciones como creadores de datos; y los dos trabajan juntos para clasificar los requisitos de calidad, realizar algunas medidas básicas y, a continuación, encontrar y eliminar las causas fundamentales del error, una a la vez.
Por lo tanto, las empresas deberían pasar de gestionar datos incorrectos en sentido descendente a crear datos buenos en sentido ascendente. Como cualquier otra disciplina, la gestión de la calidad proporciona una gran cantidad de bases, métodos y herramientas subyacentes sobre quién hace qué. Para incorporarlos a su organización, comience con tres conceptos:
- Centrarse intensamente en la mejora de los clientes y los procesos, con el objetivo a largo plazo de crear los datos correctos correctamente con los identificadores y las etiquetas adecuados, la primera vez.
- Responsabilidades de gestión claras: dejar claro que los departamentos de negocios, no los de TI, el director de riesgos o los directores de datos, son los responsables de la calidad de los datos. A su vez, esto significa funciones y responsabilidades claras para los equipos y las personas.
- Conseguir tantas personas como pueda, en todos los niveles, tan implicado como pueda.
No se deje abrumar.
Sé que algunos reaccionarán: «Oh, Dios mío, es demasiado caro». Pero, de hecho, estas recomendaciones ahorran dinero. Como se ha señalado, las empresas dedican una cantidad desmesurada de tiempo a trabajar con datos sin valor añadido. Seguir estas recomendaciones reduce drásticamente los costes.
La reacción más pertinente es: «Oh, Dios mío, esto requerirá una transformación real». ¡Eso es cierto! Si no está preparado, quizás debería reducir sus ambiciones de IA.
De forma más proactiva, las empresas están empezando a darse cuenta de que, si se gestionan correctamente, los datos se convierten en un activo con un potencial potencialmente ilimitado. Se merece una gestión adecuada. La IA desbloquea ese potencial. En pocas palabras: para obtener buenos resultados con una IA de alta calidad, necesita datos de alta calidad.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.