PathMBA Vault

Analytics and data science

¿Cuándo es importante que un algoritmo se explique por sí mismo?

por Kathryn Hume

¿Cuándo es importante que un algoritmo se explique por sí mismo?

jul18-06-755651077-GettyImages-755651077-Maskot.jpg

Imágenes de Maskot/Getty

Muchos esfuerzos por aplicar el aprendizaje automático se ven estancados debido a la preocupación por la «caja negra», es decir, la falta de transparencia en torno a por qué un sistema hace lo que hace. A veces esto se debe a que la gente quiere entender por qué se hizo alguna predicción antes de que tomaran medidas que le cambiaran la vida, como cuando un sistema de visión artificial indica un 95% de probabilidades de cáncer a partir de una radiografía del pulmón de un paciente. A veces se debe a que los equipos técnicos necesitan identificar y resolver los errores sin interrumpir todo el sistema. Y ahora que el Reglamento General de Protección de Datos (GDPR) está en vigor, las empresas que gestionan los datos de los consumidores tienen que explicar cómo los sistemas automatizados toman las decisiones, especialmente las que afectan significativamente a la vida de las personas, como la asignación de créditos o la contratación de un candidato para un puesto de trabajo. Si bien el RGPD solo se aplica en Europa, las empresas de todo el mundo anticipan que se producirán cambios similares y, por lo tanto, están reconsiderando las iniciativas de gobernanza.

Si busca en Internet, descubrirá que la mayoría de los artículos sobre la explicabilidad algorítmica se dividen en dos campos. Los defensores de la rápida adopción de la tecnología suelen argumentar que los humanos no son mejores que las máquinas para explicar las decisiones, por lo que deberíamos plantear la pregunta para acelerar la innovación. Estos argumentos retóricos no ayudan a los profesionales responsables del cumplimiento de la normativa. Por otro lado, los críticos exigen requisitos de transparencia estrictos y denigran la cultura de «actuar rápido y romper cosas». Estos argumentos pueden sofocar la adopción, ya que no todos los casos de uso del aprendizaje automático requieren el mismo nivel de supervisión y responsabilidad; es más importante poder explicar algunas decisiones que otras.

Para tener éxito con el aprendizaje automático aplicado, tiene que dar un paso atrás y analizar el problema. ¿Qué significa que un procedimiento matemático o estadístico sea «apropiado» (como exige el GDPR)? ¿Los diferentes casos de uso requieren diferentes tipos de explicaciones? ¿Quién debe participar en las decisiones relacionadas con el impacto empresarial, el cumplimiento de las normas, el enfoque técnico e incluso los valores éticos cuando las empresas integran el aprendizaje automático en las operaciones empresariales?

Empecemos por explicar por qué una idea aparentemente sencilla, como el derecho a una explicación, es difícil de entender e implementar en la práctica.

Como ocurre con cualquier tecnología, cuando inicia un proyecto de aprendizaje automático tiene que decidir si construir o comprar. Trabajar con un proveedor complica la transparencia, ya que muchas empresas de software optan por no revelar qué algoritmos utilizan ni los datos que utilizan para entrenarlos. A menudo, el motivo aducido es para proteger la propiedad intelectual o evitar una violación de la seguridad. También hay un problema de complejidad: si el proveedor utiliza varios conjuntos de datos públicos y privados para entrenar su sistema, piense en lo difícil que sería contar con mecanismos de auditoría para hacer un seguimiento exacto de lo que se necesita para tomar una decisión.

Si no utiliza un proveedor, sino que elige crear algo internamente, tiene que decidir si solo necesita poder explicar los procedimientos que utilizará (por ejemplo, los tipos de datos y los tipos de modelos) o si quiere poder explicar el funcionamiento interno de un modelo matemático.

El lenguaje del RGPD implica que es el procedimiento el que requiere una explicación. El considerando 71 dice que «procesamiento justo y transparente» significa auditar la forma en que se recopilan los datos, mantener la precisión de los datos, protegerlos y tomar medidas para identificar y prevenir cualquier efecto discriminatorio. La atención se centra en la recopilación y la integridad de los datos; los modelos estadísticos tienen que ser «apropiados». Ninguno de estos pasos es trivial, pero a menudo se pasan por alto en los debates sobre la explicabilidad porque se centra mucho en los algoritmos y los modelos. Por ejemplo, el sesgo puede introducirse en un algoritmo en muchos puntos del sistema. Es posible que su empresa haya desatendido históricamente a alguna población étnica, por lo que puede que haya recopilado pocos datos sobre ellos. Las comunidades étnicas y demográficas pueden estar estrechamente correlacionadas con los datos de ubicación, lo que lleva a una variable aparentemente inocua, como la ubicación GPS, a representar la discriminación étnica. Una vez en producción, los modelos suelen encontrarse con casos extremos: situaciones, datos o personas que no son suficientes, como los datos en los que se han entrenado. Es importante controlar los sesgos antes y después de que el sistema entre en producción y tomar medidas para abordar el tratamiento no deseado.

Un tipo de explicación consiste en aclarar los resultados para los que se ha diseñado un sistema. En el ejemplo de un sistema de solicitud de crédito en línea, hacer que un sistema rinda cuentas significaría supervisar para garantizar que las denegaciones no estuvieran correlacionadas con atributos protegidos, como el origen étnico. Las limitaciones de este enfoque centrado en los resultados son que hay menos información sobre lo que una persona tendría que hacer para intervenir y cambiar una decisión en el futuro. Un enfoque centrado en la intervención requiere una visión del funcionamiento interno de un modelo. Por ejemplo: «No reunía los requisitos porque no pagó sus tres últimos cheques de alquiler. Si paga los siguientes cuatro partidos seguidos, su puntuación será lo suficientemente alta como para superar nuestro umbral del 75%».

Cuando es importante entender la lógica de un modelo estadístico, nos enfrentamos a diferentes desafíos.

Como he insinuado en mi artículo sobre la identificación oportunidades de aprendizaje automático, los diferentes algoritmos de aprendizaje automático son cada vez menos fáciles de explicar. Una regresión lineal de la forma y = mx + b no es demasiado difícil de explicar: solo tenemos que rastrear m para saber cómo se relaciona x (entrada) con y (salida). Pero, ¿y si «m» es la abreviatura de millones de relaciones y define funciones complejas en las arquitecturas? Con el aprendizaje profundo perdemos la capacidad de determinar cómo se relacionan las entradas con las salidas porque el número de variables incluidas y las relaciones entre ellas se vuelven demasiado complejas de describir. Así, por ejemplo, una red neuronal profunda es capaz de indicar un 95% de probabilidades de que una persona deje de pagar un préstamo, pero no puede articular qué aspectos de los datos formaron esa puntuación. Es una compensación, ya que los algoritmos más complejos desbloquean capacidades que los modelos estadísticos más simples, como la regresión lineal, no pueden gestionar, pero a costa de la explicabilidad. (También vale la pena recordar que cuando los científicos de datos crean algoritmos más simples que pueden ser más fáciles de explicar, también traen consigo sesgos y suposiciones que influyen en lo que ven en los datos; estos sesgos subjetivos son difíciles de identificar y controlar con la tecnología).

Un último desafío de explicabilidad es dejar claro para qué se optimiza realmente el modelo. Un cliente ideal de tarjetas de crédito es aquel que utiliza con frecuencia la tarjeta que ha contratado (resultado a largo plazo), no solo la persona que acepta la oferta de tarjeta de crédito (resultado a corto plazo). Las personas que hacen clic en los anuncios gráficos no suelen ser clientes con un alto valor de por vida y la mayoría de las iniciativas de marketing digital solo pueden utilizar los datos del flujo de clics como sustitutos de la venta directa. Es difícil medir y obtener comentarios sobre los resultados a largo plazo, pero estas incógnitas conocidas pueden ser las más valiosas para el rendimiento de un sistema.

Esto puede parecer abrumador, pero si las personas adecuadas hacen las preguntas correctas en el momento adecuado para fundamentar una serie de decisiones y decisiones, las cosas se vuelven manejables.

Para empezar, las partes interesadas no técnicas que participan en un proyecto de aprendizaje automático necesitan formación para desarrollar intuiciones sobre el funcionamiento de los sistemas estadísticos. No necesitan programar ni ser científicos de datos, pero sí que tienen que darse cuenta de que los sistemas de aprendizaje automático generan correlaciones y no causas. Tienen que darse cuenta de que un grupo minoritario que no esté bien representado en un conjunto de datos puede recibir un trato injusto por parte de un algoritmo, no por mala intención por parte de los científicos de datos, sino porque los modelos tienden a aprender relaciones que ayudan a predecir grandes partes del conjunto de datos, a expensas de la precisión con respecto a los ejemplos menos representados.

Luego, durante las conversaciones previas al proyecto, un grupo diverso de partes interesadas de la empresa, la ciencia de datos, la TI, la privacidad y el cumplimiento debería sentarse a la mesa. (Las empresas también deberían considerar la posibilidad de hacer que la función de alguien sea cuestionar el algoritmo, como los «equipos rojos» que a veces se utilizan en la toma de decisiones de alto riesgo). Es importante tener claros los requisitos reglamentarios o los riesgos éticos antes de empezar cualquier trabajo para evitar los costes irrecuperables de aplicaciones interesantes que no cumplen los requisitos de la nueva normativa, como el GDPR, o corren el riesgo de denigrar la confianza de los consumidores.

Estos grupos de diseño multifuncional deberían tener en cuenta preguntas como:

¿Qué tipo de responsabilidad importa para el caso de uso? La explicabilidad no siempre es importante. Por ejemplo, si un bufete de abogados utiliza el aprendizaje automático para encontrar documentos relevantes para un caso, lo que importa es que no se pierda algo importante y no explique por qué un documento es relevante y otro no. Aquí, la métrica correcta en la que deben centrarse los científicos de datos se conoce como «recordar», la fracción de instancias relevantes que se han recuperado sobre la cantidad total de instancias relevantes en un conjunto de documentos. El equipo de ciencia de datos debería incluir esto en sus procesos de pruebas de modelos y control de calidad. 

¿Dónde se ubica un modelo de aprendizaje automático en particular en todo el proceso empresarial? Un analista de negocios debería trazar el proceso empresarial de principio a fin. A menudo, un proceso incluye muchos modelos de aprendizaje automático con diferentes requisitos de explicabilidad. Por ejemplo, un banco que utilice el aprendizaje automático para captar nuevos clientes con tarjetas de crédito tendrá al menos dos modelos: uno para evaluar el riesgo y aprobar la tarjeta (lo que requiere una mayor explicabilidad) y otro para predecir la propensión a convertir y personalizar las ofertas (que requiere una menor explicabilidad). Las funciones de cumplimiento deberían informar a los analistas empresariales de los requisitos reglamentarios en cada fase del proceso empresarial y los científicos de datos deberían tener en cuenta estas restricciones, en lugar de seleccionar únicamente la técnica de aprendizaje automático que ofrezca el mejor rendimiento en una tarea.

¿Qué procesos utilizaremos para gestionar los resultados? Los sistemas de aprendizaje automático son herramientas de optimización y una forma de gobernarlos es pasar de explicar qué características de los datos condujeron a qué resultados a declarar una política de alto nivel sobre los resultados deseados y hacer que los sistemas rindan cuentas por el logro de esa política. En este caso, los científicos de datos deberían ser responsables de evaluar sus modelos para detectar sesgos hacia tipos de datos confidenciales, como el género o el origen étnico, durante el control de calidad y, lo que es más importante, después de la puesta en marcha del modelo. Los sistemas estadísticos funcionan bien en mitad de la curva de campana, donde tienen muchos datos, pero pueden producir resultados inesperados en casos menos representados o en nuevos comportamientos. Alguien debería ser responsable de auditar y supervisar el rendimiento del modelo a lo largo del tiempo e identificar cualquier acción que vaya en contra de la política empresarial. Los equipos técnico, empresarial y de cumplimiento deberían reunirse periódicamente para revisar el rendimiento y ajustar el modelo a fin de lograr resultados justos. La empresa debería documentar la frecuencia con la que se actualizan los modelos y tener un proceso para comunicarlo y cómo afecta a las predicciones y cualquier cambio en los consumidores que afecte el sistema.

Gran parte de la conversación en torno a la explicabilidad y la interpretabilidad se centra estrictamente en el funcionamiento interno de los modelos de aprendizaje automático, lo que lleva al miedo a las cajas negras o a los argumentos retóricos de que los humanos no explican mejor su comportamiento y sus decisiones que la máquina más opaca. Para que las empresas tengan éxito con el aprendizaje automático, tienen que dar un paso atrás y analizar el problema, teniendo en cuenta el impacto de los sistemas de manera integral y pensando críticamente en lo que implica la responsabilidad significativa en los diferentes casos de uso. En algunos casos, las personas necesitarán explicaciones más directas, ya sea por comodidad psicológica (que les diagnostiquen un cáncer) o para intervenir y cambiar un resultado (modificar las medidas para obtener un préstamo hipotecario en el futuro, una vez que se le haya denegado uno). Sin embargo, hay muchos procesos que se pueden gobernar estableciendo políticas para obtener los resultados deseados, supervisando los resultados para hacer un seguimiento de las discrepancias y actualizando los modelos o los procedimientos de recopilación de datos para mejorar los resultados futuros. Tener claro lo que importa y emitir un juicio depende del error que una empresa puede aceptar es la habilidad que los líderes empresariales deben desarrollar.