PathMBA Vault

Technology and analytics

El reconocimiento de voz sigue teniendo importantes sesgos raciales y de género

por Joan Palmiter Bajorek

El reconocimiento de voz sigue teniendo importantes sesgos raciales y de género

Eversofine/Getty Images

La IA de voz es cada vez más omnipresente y poderosa. Las previsiones sugieren que el comercio de voz será un negocio de 80 000 millones de dólares para 2023. Google informa de que El 20% de sus búsquedas se hacen mediante consulta de voz hoy en día, un número que se prevé que suba a 50% para 2020. En 2017, Google anunció que su reconocimiento de voz tenía un Tasa de precisión del 95%. Si bien es un número impresionante, cabe preguntarse: ¿para quién tiene una precisión del 95%?

El reconocimiento de voz tiene sesgos raciales y de género significativos. Al igual que con reconocimiento facial, búsquedas en la web, e incluso dispensadores de jabón, el reconocimiento de voz es otra forma de IA que funciona peor para las mujeres y las personas no blancas. Que quede claro, no creo que los creadores de estos sistemas se hayan propuesto crear productos racistas o sexistas. Es dudoso que estos sesgos sean intencionales, pero siguen siendo problemáticos. El hecho es que el reconocimiento de voz entiende bien las voces de los hombres blancos, pero ¿qué pasa con el resto de nosotros?

Los índices de precisión son más importantes que reproducir música. El reconocimiento de voz ahora influye en aspectos importantes de la vida de las personas, como decisiones de inmigración, contratación de empleo y transporte, entre muchas otras cosas. Eso significa que la precisión del reconocimiento de voz —o la falta de ella— podría impedirle emigrar a un nuevo país, conseguir un trabajo o viajar de forma segura. ¿Vio eso? episodio de Silicon Valley ¿donde un coche lleva a alguien a una isla abandonada? Es divertido en la televisión; no tan divertido en la vida real.

Los fabricantes de automóviles lo han admitido durante años que su reconocimiento de voz no funciona tan bien para las mujeres. La solución recomendada ha sido que las mujeres reciben una formación exhaustiva («Se les podría enseñar a las mujeres a hablar más alto y a dirigir la voz hacia el micrófono…») que sus compañeros varones no tienen que hacer. Lo mismo para las minorías y las personas con acentos no estándar. ¿En serio?

Precisión del reconocimiento por género y raza

Investigación del Dr. Tatman publicado por la sección norteamericana de la Asociación de Lingüística Computacional (NAACL) indica que el reconocimiento de voz de Google es un 13% más preciso para los hombres que para las mujeres. Y Google es normalmente el el mejor desempeño — en comparación con los sistemas Bing, AT&T, WIT e IBM Watson.

He aquí un experimento mental: consideremos a tres estadounidenses que hablan inglés como lengua materna. Digamos que mi amigo Josh y yo utilizamos el reconocimiento de voz de Google. Él podría obtener un 92% de precisión y yo tendría un 79% de precisión. Los dos somos blancos. Si leemos el mismo párrafo, él tendría que corregir alrededor del 8% de la transcripción y yo tendría que fijar el 21%. Es probable que mi amiga mestiza, Jada, reciba Un 10% menos de precisión que yo. Entonces, nuestro cuadro de mando sería algo así como:

Josh (hombre blanco) = A-, 92%

Joan (mujer blanca) = C+, 79%

Jada (mujer mestiza) = D+, 69%

Los dialectos también afectan a la precisión. Por ejemplo, el inglés indio tiene un Tasa de precisión del 78% y el inglés escocés tiene unÍndice de precisión del 53%. Amazon y Google los equipos están trabajando para mejorar esa precisión, pero el problema aún no se ha resuelto.

Consecuencias en el mundo real

Estos sesgos tienen graves consecuencias en la vida de las personas. Por ejemplo, una mujer irlandesa no pasó un examen de dominio del inglés hablado cuando intentaba emigrar a Australia, a pesar de ser un hablante nativo de inglés con un alto nivel educativo. Obtuvo una puntuación de 74 sobre 90 en fluidez oral. Me suena inquietantemente familiar, ¿verdad? Lo más probable es que esta puntuación se deba a un fallo del sistema.

¿Por qué existe este sesgo? Las disparidades se deben a la forma en que hemos estructurado nuestros análisis de datos, bases de datos y aprendizaje automático. Similar a cómo las cámaras están personalizadas para fotografiar rostros blancos, análisis de audio tiene problemas con las voces más respiratorias y agudas. La razón subyacente puede ser que las bases de datos tienen muchos datos de hombres blancos y menos datos sobre las voces femeninas y minoritarias. Por ejemplo, los científicos del habla analizan con frecuencia las charlas TED y El 70% de los ponentes de TED son hombres.

Por lo tanto, la IA está hecha para fallar. El aprendizaje automático es una técnica que encuentra patrones en los datos. Cuando utiliza el reconocimiento de voz, el sistema responde a la pregunta «dados estos datos de audio, ¿qué palabras se asignan mejor a estos datos, dados los patrones y los datos de la base de datos?» Si la base de datos tiene en su mayoría voces de hombres blancos, no funcionará tan bien con los datos que ve con poca frecuencia, como voces femeninas y otras voces más diversas.

Se trata absolutamente de una cuestión de injusticia social. Pero si eso por sí solo no convence a las empresas de solucionar el problema, deberían tener en cuenta que la precisión del reconocimiento de voz también afecta a las decisiones de compra de los clientes. Tengo amigos adinerados bilingües entre inglés y español que han optado por no comprar neveras inteligentes porque saben que las neveras no las entenderán. ¿Qué otros dispositivos de IoT comprarían si estos dispositivos realmente los entendieran?

Melinda Gates, que habla con frecuencia puntos ciegos financieros relacionados con la diversidad, ha dicho: «A nosotros [como sociedad] nos importa la diversidad, pero en serio nos importa cuánto dinero ganamos… Las mujeres son [responsables del] 85% del dinero que se gasta en los consumidores. Las mujeres controlan el 70% de las decisiones financieras de la Cámara. Así que, está perdiendo una oportunidad… está dejando dinero sobre la mesa».

Posibles soluciones

A medida que la IA de voz se haga más omnipresente y poderosa, esta tecnología afectará cada vez más a nuestra vida diaria. Trabajemos en la construcción de un mundo en el que las voces de todos se escuchen con claridad.

¿Qué pueden hacer las empresas? Sea más transparente en cuanto a sus estadísticas de voz y fomente la competencia en la zona. Por ejemplo, las empresas pueden incluir sus índices de precisión para mujeres y ponentes de diversos tipos en sus argumentos de marketing y venta. ¿Su usuario objetivo es una mujer de clase trabajadora? A continuación, indique qué tan bien entiende su sistema ese grupo demográfico. Recuerde que las mujeres y las minorías tienen un poder adquisitivo enorme, ¿por qué no querría resolver este problema?

Por último, es algo de lo que todos tenemos que seguir hablando. Porque todo el mundo se merece que se escuche su voz.