PathMBA Vault

Labor

Investigación: Cómo las plataformas de conciertos pueden mitigar los prejuicios raciales en los ratings

por Tristan L. Botelho, Katherine A. DeCelles, Demetrius Humes, Sora Jun

Investigación: Cómo las plataformas de conciertos pueden mitigar los prejuicios raciales en los ratings

Las plataformas laborales en línea se basan cada vez más en las valoraciones de los clientes para evaluar el desempeño de los trabajadores, pero estos sistemas y sus algoritmos opacos pueden introducir involuntariamente prejuicios raciales y afectar a los salarios y las oportunidades de los trabajadores. Una nueva investigación en la que se analizaron casi 70 000 valoraciones de clientes antes y después de que una plataforma laboral cambiara de una escala de cinco estrellas a una escala de aprobación y aprobación descubrió que los trabajadores de color recibían de media valoraciones ligeramente más bajas (4,72 estrellas) que los trabajadores blancos (4,79 estrellas) en la escala de cinco estrellas, a pesar de que la empresa no tenía pruebas de que esta brecha reflejara las diferencias reales en la calidad del trabajo. El cambio a una escala dicotómica eliminó la brecha racial en las calificaciones y los ingresos. Las plataformas pueden emplear tres estrategias para reducir el sesgo en sus propios sistemas de clasificación: 1) comprobar si hay brechas, 2) mantener la sencillez y 3) ofrecer directrices de clasificación más claras. Estos enfoques pueden mejorar la equidad, identificar mejor la calidad del servicio y proporcionar información práctica para mejorar el rendimiento de los trabajadores y la satisfacción de los clientes.

Las plataformas del mercado laboral en línea como Fiverr, Handy, Uber y Upwork han crecido significativamente desde finales de la década de 1990, transformando radicalmente la economía y las prácticas de gestión utilizadas para apoyar el trabajo por encargo. Un cambio importante que introducen estas plataformas es que se basan en las valoraciones de los clientes para evaluar el desempeño de los trabajadores. A diferencia de las organizaciones tradicionales, en las que las evaluaciones del desempeño suelen incluir las opiniones de los miembros del equipo y los supervisores durante un período prolongado y en múltiples dimensiones del desempeño, las plataformas laborales en línea suelen basarse en evaluaciones rápidas y de una sola dimensión por parte de los clientes inmediatamente después de una breve interacción.

Las implicaciones de este cambio son profundas. Las valoraciones de los clientes en estas plataformas no son solo comentarios sobre el desempeño, sino que influyen directamente en las oportunidades laborales, las tareas y los ingresos de los trabajadores. Como resultado, incluso los sesgos más sutiles en las evaluaciones de los clientes pueden provocar importantes desigualdades para los trabajadores, especialmente los de entornos marginados. Para mitigar estas disparidades, el diseño y estructura de estos procesos de evaluación son crucial.

Nuestra investigación, publicado recientemente en La naturaleza, demuestra cómo los procesos de evaluación de los clientes en las plataformas en línea pueden amplificar involuntariamente los efectos de los sesgos sutiles. Los enfoques tradicionales para mitigar los prejuicios, como la formación sobre diversidad y las campañas de sensibilización sobre los prejuicios, se centran en los supervisores y compañeros de los lugares de trabajo tradicionales. Sin embargo, aplicar estas intervenciones a los clientes, por lo general anónimos, es un desafío porque no son empleados y no se les capacita o monitorea fácilmente.

A partir de esta investigación, ofrecemos tres estrategias para que las plataformas creen procesos de evaluación más eficaces que puedan reducir los sesgos y mejorar la capacidad de la plataforma para identificar la calidad del servicio.

Por qué la escala de valoración de cinco estrellas fracasa y cómo ayuda la dicotomización

Si bien la gente suele creer que las evaluaciones son meritocráticas en teoría y que son una medida justa del desempeño, se ha demostrado que sesgos sutiles puede influir en las evaluaciones, incluso sin conciencia. La probabilidad de que estos sutiles sesgos influyan en las valoraciones puede agravarse cuando los clientes tienen más libertad para realizar la evaluación (por ejemplo, incluir más puntos de escala que fomenten una mayor diferenciación). Por ejemplo, un cliente con prejuicios inconscientes puede calificar a un trabajador de color con cuatro estrellas en lugar de cinco, creyendo que sigue haciendo una buena evaluación; al fin y al cabo, es la mayoría de las estrellas disponibles. Sin embargo, cuando estos ligeros cambios a la baja en la calificación no tienen relación con la calidad y se repiten en miles de transacciones, estos pequeños sesgos se acumulan y se producen desigualdades mensurables en los ingresos y las oportunidades de los trabajadores.

Los trabajadores se enfrentan a una creciente inseguridad reputacional, ya que las plataformas del mercado laboral en línea utilizan algoritmos opacos y valoraciones de los clientes para determinar las oportunidades laborales. Incluso los pequeños cambios en las calificaciones de los trabajadores pueden reducir drásticamente sus ingresos.

Propusimos que cambiar a una escala de valoración dicotómica (por ejemplo, el visto bueno hacia arriba o el pulgar hacia abajo) podría reducir estos sesgos al simplificar la decisión por una elección dicotómica. En lugar de permitir evaluaciones matizadas pero potencialmente sesgadas, una escala dicotómica anima a los evaluadores a centrarse en la pregunta esencial:¿La actuación fue buena o mala?

Probando el impacto de la dicotomización

Probamos nuestra teoría con datos del mundo real de una plataforma de servicios domésticos que operaba en varias ciudades de Norteamérica. La plataforma cambió repentinamente su sistema de clasificación de una escala de cinco estrellas a una escala de aprobación y aprobación sin previo aviso a los clientes o trabajadores. Al analizar casi 70 000 valoraciones de clientes (algunas antes y otras después de este cambio inesperado y repentino), descubrimos un patrón claro: los trabajadores de color recibieron de media valoraciones ligeramente más bajas (4,72 estrellas) que los trabajadores blancos (4,79 estrellas) en la escala de cinco estrellas, una diferencia significativa desde el punto de vista estadístico, a pesar de que la empresa no tenía pruebas de que esta brecha reflejara las diferencias reales en la calidad del trabajo.

Esta diferencia, aparentemente pequeña, tuvo importantes consecuencias económicas. Como en muchas plataformas populares, los trabajadores se vieron directamente afectados por las valoraciones que recibían. En este caso, la plataforma utilizó las valoraciones de los clientes para calcular la paga de los trabajadores, lo que llevó a los trabajadores de color a ganar 91 centavos por cada dólar que ganaban los trabajadores blancos. Sin embargo, el cambio de una escala de valoración de cinco estrellas a una escala de valoración de pulgares arriba/pulgares abajo ofrecía cierto potencial. Inmediatamente después del cambio en el sistema de clasificación, la disparidad racial en las valoraciones de los clientes desapareció por completo y, en consecuencia, también lo hizo la disparidad salarial racial.

Luego, realizamos una variedad de experimentos en Internet que ayudaron a confirmar que la expresión del sesgo racial disponible en la escala de cinco estrellas se redujo significativamente con el uso de una escala dicotómica. De acuerdo con nuestra hipótesis, encontramos pruebas de que la alteración estructural de los sistemas de evaluación de los clientes, pasando de la omnipresente escala de cinco estrellas a un sistema de clasificación dicotomizado, redujo la desigualdad racial en las valoraciones de los clientes y la consiguiente disparidad de ingresos.

Qué pueden hacer las plataformas para reducir el sesgo de valoración

Basándonos en estas conclusiones, recomendamos las siguientes estrategias para las plataformas que buscan reducir los sesgos en procesos de evaluación similares, especialmente teniendo en cuenta los desafíos relacionados con el cambio de los sesgos subyacentes de las personas.

Compruebe si hay huecos.

Las plataformas deberían auditar sus sistemas de clasificación con regularidad para ver si las evaluaciones varían sistemáticamente en función de características que normalmente no están relacionadas con la calidad del trabajo, como la identidad demográfica del trabajador. Recuerde que descubrimos que los trabajadores blancos recibían una valoración media de 4,79 estrellas, mientras que los trabajadores de color recibían 4,72 estrellas en una escala de cinco estrellas. Si bien esta diferencia de 0,07 estrellas puede parecer pequeña, nuestras conclusiones indican que se traduce en disparidades significativas en los ingresos de los trabajadores debido a la posterior dependencia de las calificaciones. Como estos sesgos aparentemente pequeños en las evaluaciones pueden agravarse con el tiempo y dar forma a las oportunidades laborales y los resultados financieros futuros, las plataformas deben estar atentas a la hora de evaluar si su proceso de evaluación refuerza inadvertidamente las desigualdades demográficas.

Un enfoque simple pero eficaz para las plataformas es comparar regularmente las valoraciones de los grupos demográficos. Para detectar con mayor precisión los sesgos y no las diferencias de calidad, las plataformas deberían comparar las valoraciones de los trabajadores que realizan trabajos similares con una experiencia comparable. Las plataformas también pueden analizar de forma proactiva las conductas de valoración de los clientes individuales para identificar a los clientes que siempre valoran a los trabajadores de forma diferente en función de la demografía de los trabajadores y no del rendimiento.

Que sea sencillo.

Adopte procesos de evaluación más sencillos que dirijan la atención de los evaluadores a la evaluación básica:¿La actuación fue buena o mala? —en lugar de sistemas de clasificación complejos que pueden introducir ambigüedad y sesgo. Nuestra investigación sugiere que, si bien los métodos de evaluación más complejos parecen dar a las plataformas más matices para los clientes, a menudo no se traducen en diferencias materiales. Por ejemplo, en nuestro estudio, observamos la inflación de las valoraciones que es común en plataformas similares: al utilizar una escala de cinco estrellas, los clientes asignan por abrumadora mayoría puntuaciones de cinco estrellas, lo que reduce la granularidad prevista de la escala de evaluación. Como los evaluadores ya infrautilizan las distinciones disponibles en procesos de evaluación más complejos, simplificar el proceso puede arrojar información similar y reducir el sesgo.

Proporcione directrices de valoración más claras.

Los líderes de la plataforma podrían preocuparse inicialmente de que pasar a una escala más simple de aprobación y aprobación pudiera sacrificar las valiosas distinciones que ofrece una escala multipunto, como la omnipresente escala de cinco estrellas. Sin embargo, como se ha mencionado anteriormente, la inflación de las calificaciones es bastante común, ya que los evaluadores rara vez utilizan todo el rango de calificación, lo que hace que estas distinciones sean menos probables. Para complicar aún más la cuestión, los evaluadores suelen decidir por sí mismos qué dimensiones importan, y convierten las puntuaciones en una medida general que combina varios factores que pueden no estar relacionados en una única puntuación ambigua. Sin embargo, una posible solución es que las plataformas consideren la posibilidad de utilizar una serie de valoraciones dicotómicas según los criterios más importantes (como la puntualidad, la comunicación o la satisfacción laboral) para captar comentarios detallados de forma clara y eficaz.

Para las plataformas en las que una escala de valoración dicotomizada no es factible ni apropiada, uno de nuestros experimentos de seguimiento sugiere que dar a los clientes instrucciones explícitas puede reducir las valoraciones sesgadas. En concreto, dentro de una escala de cinco estrellas, los evaluadores que se guiaron explícitamente para centrarse en distinguir el desempeño «bueno» del «malo» dieron puntuaciones más altas a los trabajadores de color en comparación con los evaluadores que no recibieron información adicional. Por lo tanto, las plataformas que opten por conservar sus sistemas de valoración actuales pueden mejorar la equidad al definir claramente lo que significa cada valoración y fomentar activamente a los clientes a utilizar toda la escala de valoración.

. . .

Los procesos de evaluación eficaces deben ser precisos, justos y fáciles de entender. Nuestra investigación demuestra que el simple cambio de las escalas de calificación multipunto a una escala dicotómica de aprobación y aprobación puede conducir a mejoras profundas en la evaluación de la equidad y el desempeño en una plataforma del mercado laboral en línea, beneficiando tanto a los trabajadores, las plataformas y los clientes. Más allá de crear un proceso de evaluación más justo y basado en los méritos, estos cambios sugeridos ayudan a las plataformas a identificar mejor los problemas de calidad genuinos, a medir con mayor claridad la satisfacción de los clientes, a ofrecer a los trabajadores expectativas más claras e información práctica sobre sus puntos fuertes y áreas de mejora y, en última instancia, a garantizar que los clientes reciban un servicio de alta calidad de forma constante. Cuando se trata de crear procesos de evaluación más eficaces, a veces las soluciones simples son las más poderosas.