Una táctica sencilla que podría ayudar a reducir los sesgos en la IA
por Brian Uzzi

Fuente de la imagen/Getty Images
Es más fácil programar el sesgo de una máquina que de una mente.
Esa es una conclusión emergente basada en la investigación hallazgos — incluyendo el mío — eso podría llevar a que los sistemas de toma de decisiones basados en la IA estén menos sujetos a sesgos y sean más capaces de promover la igualdad. Esta es una posibilidad fundamental, dado que dependemos cada vez más de los sistemas basados en la IA para emitir evaluaciones y decisiones en contextos humanos de alto riesgo, desde las decisiones judiciales hasta la contratación, el acceso al crédito y más.
Ha sido bien establecido eso Los sistemas impulsados por la IA están sujetos a los sesgos de sus creadores humanos — sin saberlo, «incorporamos» sesgos a los sistemas entrenándolos con datos sesgados o con «reglas» creadas por expertos con sesgos implícitos.
Considere el Herramienta de evaluación familiar de Allegheny (AFST), un sistema basado en la IA que predice la probabilidad de que un niño se encuentre en una situación de abuso utilizando datos del Departamento de Servicios Humanos del mismo nombre del condado de Pensilvania, incluidos registros de agencias públicas relacionados con el bienestar infantil, los servicios de drogas y alcohol, la vivienda y otros. Los trabajadores sociales utilizan las denuncias de posibles abusos de la comunidad, junto con cualquier dato disponible públicamente que puedan encontrar sobre la familia implicada, para gestionar el modelo, que predice una puntuación de riesgo del 1 al 20; una puntuación lo suficientemente alta desencadena una investigación. Las variables predictivas incluyen factores como recibir tratamiento de salud mental, acceder a la asistencia social en efectivo y otros.
Centro Insight
La IA y la igualdad
Patrocinado por SAS
Diseñar sistemas que sean justos para todos.
Suena bastante lógico, pero hay un problema, uno grande. Por varias cuentas, la AFST tiene sesgos humanos integrados. Una de las más importantes es que el sistema pone mucho énfasis en las llamadas anteriores sobre familias, por ejemplo, de proveedores de atención médica, a la línea directa comunitaria, y las pruebas sugieren que esas llamadas tienen más de tres veces más probabilidades de involucrar a familias negras y birraciales que a familias blancas. Aunque, en última instancia, se excluyen varias llamadas de este tipo, la AFST se basa en ellas para asignar una puntuación de riesgo, lo que se traduce en investigaciones con posibles sesgos raciales si las personas que llaman a la línea directa tienen más probabilidades de denunciar a familias negras que a familias no negras, en igualdad de condiciones. Esto puede resultar en una profecía continua, autocumplida y que se autoperpetúa, en la que los datos de entrenamiento de un sistema de IA pueden reforzar sus predicciones equivocadas, influir en las decisiones futuras e institucionalizar el sesgo.
No tiene por qué ser así. Un uso más estratégico de los sistemas de IA (mediante lo que yo llamo «pruebas de gusto a ciegas») puede darnos una nueva oportunidad de identificar y eliminar los sesgos de decisión de los algoritmos subyacentes, aunque no podamos eliminarlos por completo de nuestros propios hábitos mentales. Romper el ciclo de sesgos de esta manera tiene el potencial de promover una mayor igualdad en todos los contextos, desde los negocios hasta la ciencia y las artes, en dimensiones como el género, la raza, el nivel socioeconómico y otras.
El valor de las pruebas gustativas a ciegas
Las pruebas gustativas a ciegas existen desde hace décadas.
Recuerde el famoso El desafío de Pepsi ¿de mediados de la década de 1970? Cuando la gente probó Coca-Cola y Pepsi «a ciegas» (sin etiquetas en las latas), la mayoría prefirió Pepsi antes que a su rival más vendida. Sin embargo, en la vida real, el simple hecho de saber que era Coca-Cola creó un sesgo a favor del producto; eliminar la información de identificación (la etiqueta de la Coca-Cola) eliminó el sesgo para que la gente pudiera confiar únicamente en el sabor.
En una prueba a ciegas similar realizada en el mismo período, los expertos en vino prefirieron los vinos de California antes que los franceses, en lo que se conoció como» Sentencia de París.». Una vez más, cuando la etiqueta está visible, los resultados son muy diferentes, ya que los expertos atribuyen más sofisticación y sutileza a los vinos franceses, simplemente porque son franceses, lo que indica la presencia de sesgos una vez más.
Así que es fácil entender cómo estas pruebas gustativas a ciegas pueden disminuir los sesgos en los seres humanos al eliminar la información clave de identificación del proceso de evaluación. Pero un enfoque similar puede funcionar con máquinas.
Es decir, simplemente podemos negarle al algoritmo la información sospechosa de sesgar el resultado, tal como hicieron en el Pepsi Challenge, para asegurarnos de que hace las predicciones ciegas ante esa variable. En el ejemplo de la AFST, la «prueba de gusto a ciegas» podría funcionar así: entrenar el modelo con todos los datos, incluidas las llamadas de referencia de la comunidad. A continuación, vuelva a entrenar el modelo con todos los datos excepto esa. Si las predicciones del modelo son igual de buenas sin la información de las llamadas de referencia, significa que el modelo hace predicciones que no tienen en cuenta ese factor. Pero si las predicciones son diferentes cuando se incluyen esas llamadas, esto indica que las llamadas representan una variable explicativa válida en el modelo o que puede haber un sesgo en los datos (como se ha argumentado a favor de la AFST) que debería examinarse más a fondo antes de confiar en el algoritmo.
Este proceso rompe la profecía que se autoperpetúa y se cumple que existía en el sistema humano sin la IA y la mantiene fuera del sistema de IA.
Mi investigación con colaboradores de Kellogg Yang Yang y Usted, usted, Wu demostró un efecto antisesgo similar en un ámbito diferente: la replicabilidad de los artículos científicos.
Predicción imparcial de la replicabilidad
Lo que separa la ciencia de la superstición es que un hecho científico que se encuentra en el laboratorio o en un ensayo clínico se reproduce en el mundo real una y otra vez. Cuando se trata de evaluar la replicabilidad (o reproducibilidad) de los resultados científicos publicados, los humanos nos esforzamos.
Se espera o incluso es deseable algún fallo de replicación porque la ciencia implica la experimentación con incógnitas. Sin embargo, una estimación El 68% de los estudios publicados en artículos de medicina, biología y ciencias sociales no se replican. Los fallos de replicación se siguen citando sin saberlo en la literatura, lo que aumenta los costes de I+D en una estimación 28 000 millones de dólares al año y retrasar el descubrimiento de vacunas y terapias para Covid-19 y otras condiciones.
El problema está relacionado con el sesgo: cuando los científicos e investigadores revisan un manuscrito para su publicación, se centran en los resultados estadísticos y otros resultados cuantitativos del artículo a la hora de evaluar la replicabilidad. Es decir, utilizan los números de un artículo científico mucho más que la narración del artículo, que describe los números, para hacer esta evaluación. Los revisores humanos también están influenciados por las etiquetas institucionales (por ejemplo, la Universidad de Cambridge), las etiquetas de las disciplinas científicas (los físicos son inteligentes), los nombres de las revistas y otros sesgos de estatus.
Para abordar este problema, hemos diseñado un modelo de aprendizaje automático para estimar la replicabilidad de un artículo utilizando únicamente las estadísticas publicadas en el artículo (que suelen utilizar los revisores humanos), el texto narrativo (no se utiliza normalmente) o una combinación de ellos. Estudiamos 2 millones de resúmenes de artículos científicos y más de 400 estudios replicados manualmente de 80 revistas.
El modelo de IA que utilizaba solo la narrativa predijo la replicabilidad mejor que las estadísticas. También predijo la replicabilidad mejor que la tasa base de los revisores individuales, y también los «mercados de predicciones», en los que se utiliza la inteligencia colectiva de cientos de investigadores para evaluar la replicabilidad de un artículo, un enfoque muy caro. Es importante destacar que, a continuación, utilizamos el enfoque de las pruebas de sabor a ciegas y demostramos que las predicciones de nuestro modelo no estaban sesgadas por factores como el tema, la disciplina científica, el prestigio de las revistas o palabras de persuasión como «inesperado» o «notable». El modelo de IA proporcionó predicciones de la replicabilidad a escala y sin sesgos humanos conocidos.
En una ampliación posterior de este trabajo (en curso), volvimos a utilizar un sistema de IA para volver a examinar los artículos científicos del estudio que habían publicado sin darse cuenta números y estadísticas que contenían errores que los revisores no habían detectado durante el proceso de revisión, probablemente debido a nuestra tendencia general a creer las cifras que se nos muestran. Una vez más, un sistema ciego a las variables que pueden promover sesgos cuando se sobreponderan en el proceso de revisión (la evidencia cuantitativa, en este caso) pudo realizar una evaluación más objetiva de la que podrían hacer los humanos por sí solos, detectando los errores omitidos debido al sesgo.
En conjunto, los hallazgos proporcionan pruebas sólidas del valor de crear pruebas de sabor a ciegas para los sistemas de IA, a fin de reducir o eliminar los sesgos y promover decisiones y resultados más justos en todos los contextos.
Aplicaciones en los negocios y más allá
El concepto de prueba de gusto a ciegas se puede aplicar de forma eficaz para reducir los sesgos en varios dominios que van más allá del mundo de la ciencia.
Considere las convocatorias de ganancias dirigidas por los equipos de alta dirección empresarial para explicar el desempeño financiero reciente y proyectado a los analistas, accionistas y otros. Los miembros del público utilizan el contenido de estas convocatorias para predecir el desempeño futuro de la empresa, lo que puede tener un impacto grande y rápido en las cotizaciones de las acciones y otros resultados clave.
Pero una vez más, los oyentes humanos están sesgados a utilizar las cifras presentadas, al igual que al juzgar la replicabilidad científica, y a prestar excesiva atención a quién está compartiendo la información (un CEO conocido como Jeff Bezos o Elon Musk contra otra persona). Además, las empresas tienen un incentivo para hacer girar la información para crear impresiones más favorables.
Un sistema de IA puede ir más allá de la información que podría provocar sesgos y centrarse en factores como el «texto» de la llamada (palabras en lugar de números) y otros, como el tono emocional detectado, para ofrecer información más objetiva a la hora de tomar decisiones. Actualmente estamos examinando los datos de las llamadas de ganancias con esta hipótesis en mente, además de estudiar cuestiones específicas, como si la alineación entre los números presentados y la descripción verbal de esos números tiene el mismo efecto en las evaluaciones de los analistas si el orador es hombre o mujer. ¿Los evaluadores humanos aprobarán más a los hombres en caso de desalineación? Si encontramos pruebas de sesgo, indicarán que negar información de género a un sistema de IA puede generar más juicios y decisiones que promuevan la igualdad relacionados con las demandas de ingresos.
También estamos aplicando las ideas al ámbito de las patentes, en el que las solicitudes de patentes implican una gran inversión y las tasas de rechazo llegan al 50%. En este caso, los modelos actuales que se utilizan para predecir el éxito de una solicitud de patente o el valor esperado de una patente no funcionan mucho mejor que el azar y tienden a utilizar factores como si una persona o un equipo presentó la solicitud, lo que sugiere una vez más un posible sesgo. Estamos estudiando el valor de utilizar sistemas de IA para examinar el texto de las patentes y emitir juicios más efectivos y justos.
Hay muchas más aplicaciones potenciales del enfoque de prueba de sabor a ciegas. ¿Y si las entrevistas para obtener puestos de trabajo o las evaluaciones para los ascensos o la permanencia se realizaran con algún tipo de mecanismo cegador que impidiera el uso sesgado del género, la raza u otras variables en las decisiones? ¿Qué hay de las decisiones para las que los fundadores de empresas emergentes reciben financiación, dónde el sesgo de género ha sido evidente? ¿Y si las opiniones sobre quién recibió tratamientos médicos experimentales se privaran de posibles variables que induzcan sesgos?
Para que quede claro, no estoy sugiriendo que usemos las máquinas como único mecanismo de toma de decisiones. Después de todo, los humanos también pueden programar intencionalmente los sistemas de IA de toma de decisiones para manipular la información . Aun así, nuestra participación es fundamental para formular hipótesis sobre dónde puede entrar el sesgo en primer lugar y para crear pruebas de gusto a ciegas para evitarlo. Por lo tanto, la integración de los sistemas humanos y de IA es el enfoque óptimo.
En resumen, es justo concluir que la condición humana incluye inherentemente la presencia de prejuicios. Sin embargo, cada vez hay más pruebas que sugieren que podemos minimizarlo o superarlo programando los sesgos de los sistemas basados en máquinas que utilizamos para tomar decisiones críticas, creando condiciones de juego más equitativas para todos.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.