Cómo las reuniones de calibración introducen sesgos en las revisiones de desempeño

por Raafiya Ali Khan, Rachel M. Korn, Joan C. Williams

Las evaluaciones justas del desempeño son cruciales para el éxito de una empresa, ya que garantizan que los empleados más valiosos reciben ascensos y permanecen en la empresa. Varias empresas han introducido las reuniones de calibración (en las que los supervisores discuten y ajustan las calificaciones en toda la empresa) en un intento de erradicar los sesgos haciendo que los gerentes cumplan con estándares consistentes. Sin embargo, una nueva investigación sugiere que estas reuniones pueden introducir sesgos en el proceso de varias maneras. Pequeños ajustes, como enseñar a los participantes de la reunión qué es el sesgo, pueden ayudar a igualar las condiciones.

Las reuniones de calibración suelen ser uno de los últimos pasos de los ciclos de evaluación del desempeño de muchas empresas. El proceso normalmente comienza cuando un supervisor rellena las evaluaciones para sus subordinados directos y da a cada una una una una de ellas una calificación general. Luego, el supervisor asiste a una reunión de calibración con otros supervisores y altos directivos para analizar y ajustar las calificaciones en toda la empresa. Al final, los empleados reciben dos calificaciones: una por su supervisor y otra por el comité de calibración.

El objetivo del proceso de calibración es erradicar los prejuicios haciendo que los gerentes cumplan con estándares consistentes y mitigando cualquier favoritismo que se desarrolle entre bastidores. Esto funciona, pero solo para un tipo de sesgo. Un estudio descubrió que las reuniones de calibración tenían éxito a la hora de reducir el sesgo de indulgencia, que es la tendencia de los gerentes a calificar el desempeño de un empleado por encima de lo que realmente se merecen.

Sin embargo, el mismo estudio, así como nuestro propio análisis de los datos de calibración, han revelado varias formas en las que las reuniones de calibración introducen sesgos en el proceso de evaluación del rendimiento.

Por ejemplo, el estudio anterior descubrió que las reuniones de calibración tienden a exacerbar la tendencia a clasificar a los empleados más hacia la mitad de la escala, sin diferenciar entre un rendimiento alto, medio y bajo. Esto significa que los empleados promedio y con bajo rendimiento no reciben comentarios cruciales sobre cómo mejorar y se corre el riesgo de enviar a los empleados un mensaje desmoralizante de que son simplemente de la media. Difícilmente es lo ideal.

Pero ese no es el único tipo de sesgo que fomenta la calibración. Cuando hace poco analizamos las «evaluaciones consensuadas» de un bufete de abogados, encontramos algunos mensajes aleccionadores. Las evaluaciones consensuadas, que son comunes en los bufetes de abogados, se realizan cuando los socios rellenan las evaluaciones de cada persona con la que han trabajado. Los asociados que están siendo evaluados nunca ven esas evaluaciones. En cambio, un grupo pequeño de socios calibra las evaluaciones de los supervisores y, a continuación, escribe «evaluaciones consensuadas», que recibe el asociado.

Hay varios defectos evidentes en este procedimiento. El empleado nunca sabe quién dijo qué y no se le da la oportunidad de pedir más información ni de elaborar un plan de mejora con un supervisor específico basándose en los comentarios de ese supervisor.

Este proceso también se exacerbó dos formas principales de sesgo que suelen aparecer en las evaluaciones: el sesgo de «demuéstralo», en el que algunos grupos tienen que demostrar su valía más que otros, y el sesgo de «cuerda floja», en el que se acepta una gama más amplia de comportamientos de algunos grupos que de otros.

En el bufete de abogados, descubrimos que el proceso de calibración introdujo un sesgo contra las mujeres de color que no figuraba en las evaluaciones de los supervisores. Por ejemplo, solo había una diferencia de dos puntos porcentuales en el porcentaje de hombres y mujeres blancos de color, abogados principales que los supervisores dijeron que eran activos «valiosos». Pero esta pequeña diferencia se disparó hasta 34 puntos porcentuales en las evaluaciones consensuadas.

Suponiendo que estos abogados tuvieran el mismo talento, llegamos a la conclusión de que las reuniones de calibración reforzaban los estereotipos raciales y de género sobre quién es valioso, a pesar de que los supervisores directos veían a los hombres y mujeres blancos de color casi iguales.

Es revelador que los abogados que en realidad tenían funcionó con las mujeres de color evaluadas, vieron su desempeño casi igual al de los hombres blancos: las pruebas a menudo anulan los estereotipos. Los estereotipos tienden a dominar cuando falta conocimiento de primera mano. También es importante que este patrón afectó no solo a los asociados relativamente jóvenes, sino también al abogado principal.

Surgió un tipo diferente de sesgo de demostrarlo otra vez para las mujeres blancas. Eran 12 puntos porcentuales más más probable que los supervisores describan a los hombres blancos como con potencial en las evaluaciones. Tras el proceso de calibración, las mujeres blancas tenían cinco puntos porcentuales menos más probabilidades que los hombres blancos de que se anote su potencial. Esto es particularmente importante dado un estudio reciente que descubrió que hasta el 50% de la diferencia de ascensos entre hombres y mujeres se atribuía a diferentes valoraciones sobre el potencial en las evaluaciones del desempeño.

Además, encontramos un sesgo por la cuerda floja, que normalmente se refleja en los comentarios sobre la personalidad de los empleados. En nuestros estudios sobre las evaluaciones del desempeño, las personas de color suelen recibir más comentarios sobre su personalidad que los hombres blancos, porque el comportamiento que se acepta fácilmente en un hombre blanco puede considerarse «difícil», «enfadado» o «intimidante» en una persona de color.

El sesgo por la cuerda floja también se vio exacerbado por las evaluaciones consensuadas. Las evaluaciones de los supervisores mostraron solo una diferencia de dos puntos porcentuales entre los hombres blancos y los hombres de color que se describen como «muy apreciados». Tras los índices de calibración, los hombres de color tenían 11 puntos porcentuales más de probabilidades de que los describieran de esta manera. ¿Qué tiene de malo que le gusten mucho? Para citar a un hombre negro que era uno de los pocos empleados negros de su empresa: «Un negro no puede salir adelante aquí a menos que sea el mejor amigo de todos». Los hombres negros tenían que ser ambos buenos en su trabajo y «el mejor amigo de todos», mientras que los hombres blancos podían triunfar solo por los méritos de su trabajo. Que aparezca «me gusta» en sus valoraciones envía este mensaje alto y claro.

Los formatos de las reuniones de calibración varían según la organización, pero si estas reuniones carecen de estructura, las empresas obtendrán resultados similares. Una empresa de tecnología que conocemos celebró reuniones de calibración durante dos días para evaluar a más de 100 empleados. Cada día, se les acababa el tiempo. El resultado fue que los empleados cuyas valoraciones se revisaban al principio del día tenían más tiempo de emisión, mientras que los empleados cuyas puntuaciones subían al final se quedaban con la mala cara. Si, como hemos visto anteriormente, es más probable que los hombres blancos sean juzgados por su potencial, pero otros no, esto significa que los hombres blancos considerados al final del día tienen más probabilidades de obtener valoraciones más altas que las mujeres y los candidatos de color que son considerados al mismo tiempo.

El formulario de evaluación del desempeño de otra empresa contenía tantos criterios que era inviable analizarlos todos; la empresa tampoco hacía un seguimiento de lo que se decía de cada empleado. Como resultado, se calificaba a los empleados según criterios diferentes e inconsistentes. Una vez más, a menos que se evalúe a cada candidato según los mismos criterios, con pruebas y la misma escala de valoración, el sesgo tenderá a aumentar.

Otro problema que hemos visto con las reuniones de calibración no estructuradas es que se difunden comentarios sobre la vida personal (cuestiones conyugales, estado parental e incluso apariencia), comentarios que nunca se escribirían en una evaluación del desempeño por una sencilla razón: son inapropiados e irrelevantes para el rendimiento.

Cuando las reuniones de calibración son gratuitas para todos, los participantes pueden ser vulnerables al cabildeo de los empleados. Un exalto directivo de Amazon incluso ha recomendado los empleados identifican y establecen contactos con los participantes de la reunión de calibración de antemano, básicamente ganándose el favor de los superiores para causar una buena impresión duradera. Esta medida podría funcionar para algunos empleados, pero será más fácil para los del grupo (normalmente hombres blancos extrovertidos). Un punto más básico: los empleados no deberían tener que esforzarse tanto para obtener una evaluación justa; el trabajo de la organización es ofrecer evaluaciones justas a todos.

Así que, como hemos establecido, las reuniones de calibración pueden convertirse en una placa de Petri para el sesgo. ¿Tenemos que desechar todo el proceso? Puede que sea la elección correcta para algunas organizaciones, pero la buena noticia es que los pequeños ajustes pueden interrumpir el sesgo en las reuniones de calibración y igualar las condiciones para todos los grupos en el proceso de evaluación del desempeño.

Enseñe a los participantes cómo son los prejuicios.

Es probable que las personas entiendan y reconozcan los estereotipos raciales, étnicos o de género, pero quizás no estén tan familiarizadas con otras formas importantes de sesgo, como la cuerda floja, el sesgo de prueba, el muro parental o el tira y afloja. Recomendamos a las organizaciones que capaciten a todos los que participan en el proceso de calibración para que reconozcan estos sesgos. Hemos creado un Guía para identificar el sesgo en las evaluaciones del desempeño que cualquiera puede usar.

Nuestra experimento con un bufete de abogados mediano descubrió que enseñar a los evaluadores qué es un sesgo llevó a una reducción drástica del número de comentarios negativos de personalidad sobre las personas de color: del 14% antes de la intervención al 0% después.

Utilice una rúbrica de rendimiento coherente, concisa y basada en la evidencia y pida a los participantes que presenten las valoraciones por escrito con antelación.

Establecer las competencias clave garantizará que evalúa a cada empleado según los mismos criterios pertinentes para el puesto. Recomendamos a todos los participantes en las reuniones de calibración que presenten dos o tres pruebas, antes de la reunión de calibración, para respaldar sus evaluaciones escritas de si se ha demostrado su competencia. Nuestros estudios han demostrado que cuando los directivos se comprometen previamente con una valoración, es menos probable que se dejen llevar si los superiores inician la conversación con una opinión diferente.

En un experimento con una gran empresa minorista, descubrimos que solo el 43% de los empleados recibían comentarios basados en pruebas sobre sus evaluaciones de desempeño. Tras cambiar a una rúbrica que incluía expectativas de desempeño concisas y específicas, a los directivos les resultó más fácil basarse en las pruebas en sus evaluaciones y el número total de empleados que recibieron comentarios basados en las pruebas aumentó hasta el 87%.

Asignar personas para que busquen prejuicios durante la reunión.

Los «interruptores sesgados», o los participantes a los que se les haya encomendado específicamente buscar pruebas de sesgo durante la reunión de calibración, pueden volver a centrar la conversación en los criterios de desempeño preestablecidos en caso de que la reunión pase a centrarse en temas irrelevantes, como la amabilidad de un empleado. Una forma sencilla de hacerlo es simplemente decir: «¿Es relevante para la rúbrica?»

Las evaluaciones del desempeño tienen como objetivo dar confianza a los empleados o una llamada de atención. Las evaluaciones justas son cruciales para el éxito de una empresa, ya que garantizan que los empleados más valiosos reciben ascensos y permanecen en la empresa. Si bien nuestra investigación mostró prejuicios raciales y de género en casi todas las empresas que evaluamos, los prejuicios no son inevitables si las organizaciones implementan un proceso más estructurado y basado en las pruebas.

Los autores quieren dar las gracias a Walmart por su generosa subvención que financió parte de esta investigación.

Anterior Siguiente

PathMBA Vault

Cómo las reuniones de calibración introducen sesgos en las revisiones de desempeño

Enseñe a los participantes cómo son los prejuicios.

Utilice una rúbrica de rendimiento coherente, concisa y basada en la evidencia y pida a los participantes que presenten las valoraciones por escrito con antelación.

Asignar personas para que busquen prejuicios durante la reunión.

Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión