PathMBA Vault

Technology and analytics

Cuando el aprendizaje automático se descarrila

por Boris Babic, I. Glenn Cohen, Theodoros Evgeniou, Sara Gerke

Cuando el aprendizaje automático se descarrila

¿Qué ocurre cuando el aprendizaje automático (programas de ordenador que absorben nueva información y, a continuación, cambian la forma en que toman decisiones) provoca pérdidas de inversión, sesgos en la contratación o los préstamos o accidentes de coche? ¿Deberían las empresas permitir que sus productos y servicios inteligentes evolucionen de forma autónoma o deberían «bloquear» sus algoritmos y actualizarlos periódicamente? Si las empresas optan por hacer esto último, ¿cuándo y con qué frecuencia deberían realizarse esas actualizaciones? ¿Y cómo deberían las empresas evaluar y mitigar los riesgos que representan esas y otras opciones?

En todo el mundo empresarial, a medida que la inteligencia artificial basada en el aprendizaje automático impregna cada vez más ofertas y procesos, los ejecutivos y los consejos de administración deben estar preparados para responder a estas preguntas. En este artículo, que se basa en nuestro trabajo en materia de derecho sanitario, ética, regulación y aprendizaje automático, presentamos conceptos clave para entender y gestionar las posibles desventajas de esta tecnología avanzada.

Qué hace que el aprendizaje automático sea riesgoso

La gran diferencia entre el aprendizaje automático y las tecnologías digitales que lo precedieron es la capacidad de tomar decisiones cada vez más complejas de forma independiente (como qué productos financieros vender, cómo reaccionan los vehículos ante los obstáculos y si un paciente tiene una enfermedad) y adaptarse continuamente en respuesta a los nuevos datos. Pero estos algoritmos no siempre funcionan bien. No siempre toman decisiones éticas o precisas. Hay tres razones fundamentales para ello.

Una es simplemente que los algoritmos normalmente se basan en el probabilidad que alguien, por ejemplo, no pagará un préstamo o tendrá una enfermedad. Como hacen tantas predicciones, es probable que algunos se equivocará, solo porque siempre existe la posibilidad de que se vayan. La probabilidad de errores depende de muchos factores, como la cantidad y la calidad de los datos utilizados para entrenar los algoritmos, el tipo específico de método de aprendizaje automático elegido (por ejemplo, el aprendizaje profundo, que utiliza modelos matemáticos complejos, en lugar de árboles de clasificación que se basan en las reglas de decisión) y si el sistema utiliza únicamente algoritmos explicables (lo que significa que los humanos pueden describir cómo han tomado sus decisiones), lo que puede que no permita maximizar la precisión.

En segundo lugar, el entorno en el que funciona el aprendizaje automático puede evolucionar por sí solo o diferir de lo que se desarrollaron los algoritmos. Si bien esto puede ocurrir de muchas maneras, dos de las más frecuentes son concepto a la deriva y cambio de covariables.

Con la primera, la relación entre las entradas que utiliza el sistema y sus salidas no es estable en el tiempo o puede estar mal especificada. Considere un algoritmo de aprendizaje automático para la negociación de acciones. Si se ha entrenado utilizando únicamente datos de un período de baja volatilidad del mercado y alto crecimiento económico, puede que no funcione bien cuando la economía entre en recesión o sufra turbulencias, por ejemplo, durante una crisis como la pandemia de la COVID-19. A medida que el mercado cambie, la relación entre las entradas y las salidas (por ejemplo, entre el apalancamiento de una empresa y su rentabilidad bursátil) también puede cambiar. Puede producirse una desalineación similar con los modelos de calificación crediticia en diferentes momentos del ciclo económico.

En medicina, un ejemplo de deriva conceptual es cuando un sistema de diagnóstico basado en el aprendizaje automático que utiliza imágenes de la piel como datos para detectar el cáncer de piel no hace los diagnósticos correctos porque la relación entre, por ejemplo, el color de la piel de una persona (que puede variar según la raza o la exposición al sol) y la decisión de diagnóstico no se ha captado adecuadamente. Esta información a menudo ni siquiera está disponible en los historiales médicos electrónicos que se utilizan para entrenar el modelo de aprendizaje automático.

Los cambios de covariables se producen cuando los datos introducidos en un algoritmo durante su uso difieren de los datos que lo entrenaron. Esto puede ocurrir incluso si los patrones que el algoritmo ha aprendido son estables y no hay ninguna deriva conceptual. Por ejemplo, una empresa de dispositivos médicos podría desarrollar su sistema basado en el aprendizaje automático con datos de los grandes hospitales urbanos. Pero una vez que el dispositivo esté en el mercado, los datos médicos introducidos en el sistema por los proveedores de atención de las zonas rurales puede que no se parezcan a los datos de desarrollo. Los hospitales urbanos podrían tener una mayor concentración de pacientes de ciertos grupos sociodemográficos que tienen afecciones médicas subyacentes que no se atienden con frecuencia en los hospitales rurales. Estas disparidades solo se descubrirán cuando el dispositivo cometa más errores en el mercado que durante las pruebas. Dada la diversidad de los mercados y el ritmo al que cambian, cada vez es más difícil prever lo que ocurrirá en el entorno en el que funcionan los sistemas y ninguna cantidad de datos puede captar todos los matices que se producen en el mundo real.

¿Cómo debemos programar un coche autónomo para que valore la vida de tres personas mayores contra, por ejemplo, la vida de una persona de mediana edad?

La tercera razón por la que el aprendizaje automático puede tomar decisiones inexactas tiene que ver con la complejidad de los sistemas generales en los que está integrado. Piense en un dispositivo utilizado para diagnosticar una enfermedad a partir de las imágenes que ingresan los médicos, como el IDx-DR, que identifica trastornos oculares como la retinopatía diabética y el edema macular, y que fue el primer dispositivo médico autónomo basado en el aprendizaje automático autorizado para su uso por la Administración de Alimentos y Medicamentos de los Estados Unidos. La calidad de cualquier diagnóstico depende de la claridad de las imágenes proporcionadas, del algoritmo específico utilizado por el dispositivo, de los datos con los que se haya entrenado el algoritmo, de si el médico que introdujo las imágenes recibió las instrucciones adecuadas, etc. Con tantos parámetros, es difícil evaluar si un dispositivo de este tipo puede haber cometido un error y por qué, y mucho menos asegurarse de su comportamiento.

Pero las decisiones inexactas no son los únicos riesgos del aprendizaje automático. Analicemos ahora otras dos categorías: el riesgo de agencia y el riesgo moral.

Riesgo de agencia

Las imperfecciones del aprendizaje automático plantean otro desafío importante: los riesgos se derivan de cosas que no están bajo el control de una empresa o un usuario específicos.

Por lo general, es posible basarse en pruebas fiables para reconstruir las circunstancias que provocaron un accidente. Como resultado, cuando se produce una, los ejecutivos pueden al menos obtener estimaciones útiles del alcance de la posible responsabilidad de su empresa. Sin embargo, dado que el aprendizaje automático suele estar integrado en un sistema complejo, a menudo no queda claro qué provocó una avería: qué parte o «agente» (por ejemplo, el desarrollador del algoritmo, el implementador del sistema o un socio) fue responsable del error y si hubo algún problema con el algoritmo, con algunos datos que le facilitó el usuario o con los datos utilizados para entrenarlo, que pueden provenir de varios proveedores externos. El cambio ambiental y la naturaleza probabilística del aprendizaje automático hacen que sea aún más difícil atribuir la responsabilidad a un agente en particular. De hecho, pueden producirse accidentes o decisiones ilegales incluso sin negligencia por parte de nadie, ya que siempre existe la posibilidad de que se tome una decisión inexacta.

Gregory Reid/Gallery Stock

Los ejecutivos necesitan saber cuándo es probable que sus empresas se enfrenten a la responsabilidad en virtud de la ley actual, que a su vez también podría evolucionar. Tenga en cuenta el contexto médico. Históricamente, los tribunales han considerado a los médicos como los que toman las decisiones finales y, por lo tanto, han dudado en aplicar la responsabilidad por los productos a los fabricantes de software médico. Sin embargo, esto puede cambiar a medida que haya más sistemas de caja negra o autónomos que hagan diagnósticos y recomendaciones sin la participación de los médicos de las clínicas (o con una participación mucho menor de ellos). ¿Qué pasará, por ejemplo, si un sistema de aprendizaje automático recomienda un tratamiento no estándar para un paciente (por ejemplo, una dosis de fármaco mucho más alta de lo habitual) y la regulación evoluciona de tal manera que lo más probable es que el médico sea considerado responsable de cualquier daño solo si no sigue las recomendaciones del sistema? Estos cambios normativos pueden transferir los riesgos de responsabilidad de los médicos a los desarrolladores de los dispositivos médicos con aprendizaje automático, los proveedores de datos que participan en el desarrollo de los algoritmos o las empresas que participan en la instalación y el despliegue de los algoritmos.

Riesgo moral

Los productos y servicios que tomen decisiones de forma autónoma también deberán resolver dilemas éticos, un requisito que plantea riesgos adicionales y desafíos regulatorios y de desarrollo de productos. Los académicos ya han empezado a enmarcar estos desafíos como problemas de diseño de algoritmos responsable. Incluyen el acertijo de cómo automatizar el razonamiento moral. ¿Debería Tesla, por ejemplo, programar sus coches para que piensen en términos utilitarios de costo-beneficio o en términos kantianos, en los que ciertos valores no puedan negociarse independientemente de los beneficios? Incluso si la respuesta es utilitaria, la cuantificación es extremadamente difícil: ¿cómo debemos programar un coche para que valore la vida de tres personas mayores en comparación con, por ejemplo, la vida de una persona de mediana edad? ¿Cómo deberían las empresas equilibrar las compensaciones entre, por ejemplo, la privacidad, la equidad, la precisión y la seguridad? ¿Se pueden evitar todo ese tipo de riesgos?

Los riesgos morales también incluyen los sesgos relacionados con los grupos demográficos. Por ejemplo, los algoritmos de reconocimiento facial tienen dificultades para identificar a las personas de color; los sistemas de clasificación de las lesiones cutáneas parecen tener una precisión desigual en todas las razas; los instrumentos de predicción de la reincidencia otorgan a los negros e hispanos calificaciones falsamente altas y los sistemas de calificación crediticia les dan calificaciones injustamente bajas. Con muchos usos comerciales generalizados, los sistemas de aprendizaje automático pueden considerarse injustos para un grupo determinado en algunos aspectos.

El problema se ve agravado por las múltiples y posiblemente incompatibles formas de definir la equidad y codificarla en algoritmos. Se puede calibrar un algoritmo de préstamos (lo que significa que sus decisiones son independientes de la identidad del grupo tras controlar el nivel de riesgo) y, al mismo tiempo, denegar préstamos de manera desproporcionada a minorías solventes. Como resultado, una empresa puede encontrarse en una situación de «maldita sea si lo hace, maldita sea si no lo hace». Si utiliza algoritmos para decidir quién recibe un préstamo, puede tener dificultades para evitar los cargos, ya que discrimina a algunos grupos según una de las definiciones de equidad. Las diferentes culturas también pueden aceptar diferentes definiciones y compensaciones éticas, lo que es un problema para los productos de los mercados globales. Un libro blanco de la Comisión Europea de febrero de 2020 sobre la IA señala estos desafíos: aboga por el desarrollo de la IA con «valores europeos», pero ¿se exportará fácilmente esa IA a regiones con valores diferentes?

Los ejecutivos tienen que pensar en el aprendizaje automático como una entidad viva, no como una tecnología inanimada.

Por último, todos estos problemas también pueden deberse a la inestabilidad de los modelos. Se trata de una situación en la que las entradas que están cerca una de la otra llevan a decisiones muy separadas. Es probable que los algoritmos inestables traten a personas muy similares de manera muy diferente y, posiblemente, injustamente.

Todas estas consideraciones, por supuesto, no significan que debamos evitar por completo el aprendizaje automático. En cambio, los ejecutivos deben aprovechar las oportunidades que crea y, al mismo tiempo, asegurarse de abordar los riesgos adecuadamente.

¿Bloquear o no bloquear?

Si los líderes deciden emplear el aprendizaje automático, la siguiente pregunta clave es: ¿debería la empresa permitir que evolucione de forma continua o, en cambio, introducir solo versiones probadas y bloqueadas de vez en cuando? ¿Esta última opción mitigaría los riesgos que acabamos de describir?

Este problema es conocido en el mundo de la medicina. Hasta ahora, la FDA solo ha aprobado el «software como dispositivo médico» (software que puede realizar sus funciones médicas sin hardware) cuyos algoritmos están bloqueados. El razonamiento: la agencia no ha querido permitir el uso de dispositivos cuyos procedimientos de diagnóstico o vías de tratamiento sigan cambiando de maneras que no entiende. Pero como la FDA y otros reguladores se están dando cuenta ahora, bloquear los algoritmos puede ser igual de arriesgado, ya que no necesariamente elimina los siguientes peligros:

Decisiones inexactas.

El bloqueo no altera el hecho de que los algoritmos de aprendizaje automático suelen basar las decisiones en probabilidades estimadas. Además, si bien la entrada de más datos suele conducir a un mejor rendimiento, no siempre es así y el grado de mejora puede variar; las mejoras en los algoritmos desbloqueados pueden ser mayores o menores para los diferentes sistemas y con diferentes volúmenes de datos. Aunque es difícil entender cómo puede cambiar la precisión (o inexactitud) de las decisiones cuando se desbloquea un algoritmo, es importante intentarlo.

Cambios ambientales.

También importa si el entorno en el que el sistema toma las decisiones evoluciona y cómo lo hace. Por ejemplo, los pilotos automáticos de los coches funcionan en entornos que se modifican constantemente por el comportamiento de otros conductores. Los sistemas de precios, calificación crediticia y negociación pueden enfrentarse a un régimen de mercado cambiante cada vez que el ciclo económico entre en una nueva fase. El desafío consiste en garantizar que el sistema de aprendizaje automático y el entorno coevolucionen de manera que el sistema tome las decisiones adecuadas.

Riesgos de agencia.

Bloquear un algoritmo no elimina la complejidad del sistema en el que está integrado. Por ejemplo, pueden seguir produciéndose errores causados por el uso de datos inferiores de proveedores externos para entrenar el algoritmo o por diferencias en las habilidades de los usuarios. La responsabilidad aún puede ser difícil de asignar a los proveedores de datos, los desarrolladores de algoritmos, los implementadores y los usuarios

Riesgos morales.

Un sistema bloqueado puede conservar imperfecciones o sesgos desconocidos para sus creadores. Al analizar las mamografías para detectar signos de cáncer de mama, un algoritmo bloqueado no podría aprender de las nuevas subpoblaciones a las que se aplica. Como la densidad media de los senos puede variar según la raza, esto podría provocar diagnósticos erróneos si el sistema evalúa a las personas de un grupo demográfico que estaba infrarrepresentado en los datos de entrenamiento. Del mismo modo, un algoritmo de calificación crediticia centrado en un subconjunto de la población segregado socioeconómicamente puede discriminar a ciertos prestatarios de la misma manera que lo hace la práctica ilegal de fijar líneas rojas. Queremos que los algoritmos corrijan estos problemas lo antes posible actualizándose a medida que «observen» más datos de subpoblaciones que puede que no hayan estado bien representadas o ni siquiera identificadas antes. Por el contrario, los dispositivos cuyos sistemas de aprendizaje automático no estén bloqueados podrían dañar a uno o más grupos con el tiempo si evolucionan y utilizan principalmente datos de otro grupo. Es más, identificar el punto en el que el dispositivo empeora comparativamente a la hora de tratar a un grupo puede resultar difícil.

Un kit de herramientas para ejecutivos

Entonces, ¿cómo deberían gestionar los ejecutivos los riesgos actuales y emergentes del aprendizaje automático? Desarrollar los procesos adecuados, aumentar el conocimiento de la dirección y del consejo de administración, hacer las preguntas correctas y adoptar el marco mental correcto son pasos importantes.

Trate el aprendizaje automático como si fuera humano.

Los ejecutivos tienen que pensar en el aprendizaje automático como una entidad viva, no como una tecnología inanimada. Del mismo modo que las pruebas cognitivas de los empleados no revelarán cómo les irá cuando se añadan a un equipo preexistente en una empresa, las pruebas de laboratorio no pueden predecir el rendimiento de los sistemas de aprendizaje automático en el mundo real. Los ejecutivos deben exigir un análisis completo de cómo los empleados, los clientes u otros usuarios aplicarán estos sistemas y reaccionarán ante sus decisiones. Incluso cuando los reguladores no lo exijan, es posible que las empresas deseen someter sus nuevos productos basados en el aprendizaje automático a ensayos controlados aleatorios para garantizar su seguridad, eficacia y equidad antes de su lanzamiento. Pero puede que también quieran analizar las decisiones de los productos en el mercado real, donde hay varios tipos de usuarios, para comprobar si la calidad de las decisiones difiere entre ellos. Además, las empresas deberían comparar la calidad de las decisiones que toman los algoritmos con las que se toman en las mismas situaciones sin empleándolos. Antes de implementar productos a gran escala, especialmente, pero no solo, aquellos que no se hayan sometido a pruebas controladas aleatorias, las empresas deberían considerar la posibilidad de probarlos en mercados limitados para hacerse una mejor idea de su precisión y comportamiento cuando hay varios factores en juego, por ejemplo, cuando los usuarios no tienen la misma experiencia, los datos de las fuentes varían o el entorno cambia. Los fallos en el entorno real indican la necesidad de mejorar o retirar los algoritmos.

Piense como un regulador y certifique primero.

Las empresas deberían desarrollar planes para certificar las ofertas de aprendizaje automático antes de su comercialización. Las prácticas de los reguladores ofrecen una buena hoja de ruta. En 2019, por ejemplo, la FDA publicó un documento de debate en el que proponía un nuevo marco reglamentario para modificar el software basado en el aprendizaje automático como dispositivo médico. Estableció un enfoque que permitiría a este software mejorar continuamente y, al mismo tiempo, mantener la seguridad de los pacientes, que incluía una evaluación completa de la empresa (o el equipo) que desarrollaba el software para garantizar que tenía una cultura de excelencia organizacional y alta calidad que la llevara a probar periódicamente sus dispositivos de aprendizaje automático. Si las empresas no adoptan estos procesos de certificación, pueden exponerse a la responsabilidad, por ejemplo, por llevar a cabo una diligencia debida insuficiente.

Muchas empresas emergentes ofrecen servicios para certificar que los productos y procesos no sufren sesgos, prejuicios, estereotipos, injusticias y otros problemas. Las organizaciones profesionales, como el Instituto de Ingenieros Eléctricos y Electrónicos y la Organización Internacional de Normalización, también están desarrollando estándares para dicha certificación, mientras que empresas como Google ofrecen servicios de ética de la IA que examinan múltiples dimensiones, desde los datos utilizados para entrenar los sistemas hasta su comportamiento y su impacto en el bienestar. Puede que las empresas necesiten desarrollar sus propios marcos similares.

Gregory Reid/Gallery Stock

Supervisar de forma continua.

A medida que los productos y servicios basados en el aprendizaje automático y los entornos en los que operan evolucionan, las empresas pueden darse cuenta de que sus tecnologías no funcionan como se pretendía inicialmente. Por lo tanto, es importante que establezcan formas de comprobar que estas tecnologías se comportan dentro de los límites adecuados. Otros sectores pueden servir de modelos. La Iniciativa Sentinel de la FDA se basa en fuentes de datos dispares, como los historiales médicos electrónicos, para supervisar la seguridad de los productos médicos y puede obligar a retirarlos si no se aprueban. En muchos sentidos, los programas de monitorización de las empresas pueden parecerse a las herramientas y procesos de mantenimiento preventivo que utilizan actualmente las empresas de fabricación o energía o en la ciberseguridad. Por ejemplo, las empresas podrían llevar a cabo los denominados ataques adversarios contra la IA, como los que se utilizan para poner a prueba de forma rutinaria la solidez de las defensas de los sistemas de TI.

Haga las preguntas correctas.

Los ejecutivos y los reguladores tienen que ahondar en lo siguiente:

  • Precisión y competitividad. ¿En qué medida es probable que mejore el rendimiento del sistema basado en el aprendizaje automático con el volumen de datos nuevos que se deriven de su uso si no bloqueamos el algoritmo? ¿Qué significarán estas mejoras para la empresa? ¿Hasta qué punto entenderán los consumidores las ventajas y los inconvenientes de los sistemas bloqueados frente a los desbloqueados?
  • Prejuicios. ¿Qué datos se utilizaron para entrenar el algoritmo? ¿Qué tan representativo es de la población en la que funcionará el algoritmo en última instancia? ¿Podemos predecir si un algoritmo desbloqueado producirá resultados menos sesgados que uno bloqueado si permitimos que aprenda con el tiempo? ¿Los errores del algoritmo afectan a las minorías u otros grupos en particular? ¿Un enfoque de monitorización continua puede establecer «barreras» que impidan que el algoritmo pase a ser discriminatorio?
  • El medio ambiente. ¿Cómo cambiará el entorno en el que se utilice la oferta con el tiempo? ¿Hay condiciones en las que no se debe permitir que el aprendizaje automático tome decisiones y, de ser así, cuáles son? ¿Cómo podemos asegurarnos de que el comportamiento de la oferta evolucione de manera adecuada teniendo en cuenta los cambios del propio entorno? ¿Cuándo debemos retirar nuestra oferta porque la brecha entre el entorno y el comportamiento de nuestra oferta se ha hecho demasiado grande? ¿Cuáles son los límites del entorno en los que nuestra oferta puede adaptarse y funcionar? ¿Qué tan robustos y seguros son nuestros sistemas de aprendizaje automático a lo largo de su ciclo de vida?
  • Agencia. ¿De qué componentes de terceros, incluidas las fuentes de datos, depende el comportamiento de nuestros algoritmos de aprendizaje automático? ¿Cuánto varía cuando los utilizan diferentes tipos de personas, por ejemplo, las menos cualificadas? ¿Qué productos o servicios de otras organizaciones utilizan nuestros algoritmos de datos o aprendizaje automático, lo que podría exponernos a responsabilidades? ¿Deberíamos permitir que otras organizaciones usen los algoritmos de aprendizaje automático que desarrollemos?

Desarrolle principios que aborden los riesgos de su empresa.

Las empresas tendrán que establecer sus propias directrices, incluidas las éticas, para gestionar estos nuevos riesgos, como ya han hecho algunas empresas, como Google y Microsoft. Estas directrices suelen tener que ser muy específicas (por ejemplo, en cuanto a las definiciones de equidad que se adoptan) para que sean útiles y deben adaptarse a los riesgos en cuestión. Si utiliza el aprendizaje automático para tomar decisiones de contratación, sería bueno tener un modelo que fuera simple, justo y transparente. Si utiliza el aprendizaje automático para pronosticar los precios de los contratos de futuros sobre materias primas, puede que le importen menos esos valores y más la pérdida financiera potencial máxima permitida en cualquier decisión que tome el aprendizaje automático.

¿Hay condiciones en las que no se debe permitir que el aprendizaje automático tome decisiones y, de ser así, cuáles son?

Por suerte, el viaje para desarrollar e implementar los principios no tiene por qué ser solitario. Los ejecutivos tienen mucho que aprender de los esfuerzos plurianuales de instituciones como la OCDE, que desarrolló los primeros principios intergubernamentales de IA (adoptados en 2019 por muchos países). Los principios de la OCDE promueven una IA innovadora, confiable y responsable y transparente que respete los derechos humanos, el estado de derecho, la diversidad y los valores democráticos, y que impulse el crecimiento inclusivo, el desarrollo sostenible y el bienestar. También hacen hincapié en la solidez, la protección y la gestión continua de los riesgos de los sistemas de IA a lo largo de su ciclo de vida.

El Observatorio de Políticas de IA de la OCDE, creado recientemente, proporciona más recursos útiles, como una recopilación exhaustiva de las políticas de IA en todo el mundo.

. . .

El aprendizaje automático tiene un potencial enorme. Pero a medida que esta tecnología, junto con otras formas de IA, vaya integrándose en nuestro tejido económico y social, los riesgos que plantea aumentarán. Para las empresas, mitigarlos puede resultar tan importante, y posiblemente más importante, que gestionar la adopción del aprendizaje automático en sí. Si las empresas no establecen las prácticas adecuadas para abordar estos nuevos riesgos, es probable que tengan problemas para ganar terreno en el mercado.