PathMBA Vault

Employee performance management

Investigación: Por qué las valoraciones de todo, desde el vino hasta los productos de Amazon, mejoran con el tiempo

por Kieran O’Connor, Amar Cheema

Investigación: Por qué las valoraciones de todo, desde el vino hasta los productos de Amazon, mejoran con el tiempo

Perets/Getty Images

Los índices de audiencia desempeñan un papel enorme en nuestras vidas. Las valoraciones de los críticos, los jueces y los evaluadores determinan una serie de resultados, desde los aparentemente triviales (qué vino elige para cenar o qué productos compra en Amazon) hasta los más importantes (qué atletas ganan el oro olímpico o qué estudiantes van a las mejores universidades).

Pero, ¿qué tan fiables son estas valoraciones? ¿Qué tan bien aguantan el tiempo?

Pensamos en ello cuando nos enteramos de las especulaciones sobre la clasificación de los vinos inflación. Cuando Robert Parker introdujo su sistema de clasificación de 100 puntos para el vino hace décadas, la puntuación más alta que obtuvo ese año fue de 91 puntos. Ahora, muchos vinos reciben puntuaciones perfectas en su publicación, The Wine Advocate. Del mismo modo, en el año 2000 solo el 15% de los vinos valorados por Wine Spectator recibió una puntuación superior a 90. Para 2015, la frecuencia de esas puntuaciones se había más que duplicado: casi un tercio de todos los vinos reseñados reciben ahora una puntuación superior a 90.

Queríamos saber qué estaba pasando aquí y si la gente tiene un sesgo por dar puntuaciones más altas con el tiempo.

Los índices de audiencia suben con la experiencia

En ocho estudios, publicados recientemente en Ciencia psicológica, capturamos más de 12 000 evaluaciones secuenciales para comprobar si las valoraciones cambiaban a medida que el calificador ganaba más experiencia. Las evaluaciones abarcaron mucho territorio: las puntuaciones de los jueces en el programa de televisión Bailando con las estrellas, calificaciones de estudiantes de profesores universitarios y valoraciones de cuentos y fotografías de estudiantes universitarios. También analizamos miles de reseñas de productos de Amazon de críticos dedicados.

En un estudio, analizamos 5.511 puntuaciones del mismo panel de jueces en Bailando con las estrellas. A medida que pasaban 20 temporadas, descubrimos que cuantas más evaluaciones hacían los jueces, más altas eran las puntuaciones que daban. Esto era cierto incluso si controlábamos otros factores, como si las parejas profesionales realmente estaban mejorando o si bailarines más hábiles aparecían en temporadas posteriores.

A continuación, realizamos un estudio diferente en el que se examinaron las calificaciones de los estudiantes durante un período de 10 años en 991 cursos impartidos varias veces por los mismos profesores. Al igual que con los jueces de los concursos de baile, cuantas más veces un instructor imparta un curso, mejores calificaciones obtiene. Una vez más, nos preguntamos si otros factores podrían explicar estos resultados, como si, con el tiempo, los estudiantes estaban mejorando, si las calificaciones de todos los cursos aumentaban, si los cursos que obtenían calificaciones más altas tenían más probabilidades de volver a ofrecerse y los profesores estaban mejorando su enseñanza. A pesar de tener en cuenta estas posibilidades, obtuvimos los mismos resultados: cuando los profesores impartían el mismo curso muchas veces, tendían a dar calificaciones más altas.

Para descartar explicaciones alternativas, también probamos este patrón en un experimento controlado en el que la gente evaluaba historias cortas. Pedimos a 168 estudiantes universitarios que valoraran un cuento corto por día durante 10 días. Al final del estudio, todos los participantes habían valorado las mismas 10 historias, pero cada uno las vio en un orden aleatorio diferente. La asignación aleatoria nos permitió aislar la influencia del orden (día 1, día 2, etc.) en las evaluaciones. En otras palabras, ¿hacer más evaluaciones, independientemente de lo que evalúe la gente, hace que las calificaciones suban? Como antes, descubrimos que cuantas más historias valoraba una persona, más altas eran las puntuaciones que daba. En consecuencia, el décimo piso recibió una valoración más alta, de media, que el primero.

En general, hemos obtenido el mismo resultado.

Evaluar más facilita la evaluación

¿Por qué podrían subir los ratings con el tiempo?

Nos preguntábamos si el proceso de evaluación podría resultar más fácil cuanto más lo haga, lo que podría influir en la valoración positiva de algo. En un estudio de seguimiento, pedimos a 362 personas de un panel en línea que valoraran una historia seleccionada al azar por día durante 10 días. También les hacíamos preguntas a diario como: ¿Qué tan fácil era evaluar cada historia? A medida que pasaban los días, los participantes dijeron que les resultaba más fácil y divertido valorar cada historia. Estas sensaciones, a su vez, llevaron a mejorar las evaluaciones de las historias con el tiempo.

Los hallazgos sugieren que las evaluaciones sesgadas son el resultado de un proceso de atribución errónea: si algo parece más fácil de evaluar, la gente cree que, de hecho, debe ser mejor. En otras palabras, atribuyen erróneamente sus propias opiniones sobre la evaluación (parece más fácil hacer una evaluación) a su valoración de los méritos reales (esto debe merecer una valoración más alta). Esto era cierto a pesar de que la secuencia de historias de cada persona era aleatoria.

Sin embargo, cuando les preguntamos si pensaban que sus puntuaciones estaban subiendo con el tiempo, los participantes no estuvieron de acuerdo en que lo estuvieran. El resultado sugirió que la mayoría de las personas no saben que ese sesgo podría influir en sus juicios.

Calificaciones de productos, promociones y comentarios sobre el rendimiento: ¿qué tan confiables son?

¿Por qué son importantes nuestros hallazgos para los directivos y las organizaciones? Una implicación práctica se refiere a las organizaciones que buscan opiniones de clientes. En un estudio complementario, descubrimos que los críticos de Amazon dan valoraciones más altas a los productos cuanto más reseñas dan. Por ejemplo, si alguien hace una valoración por primera o segunda vez, puede que dé una valoración por estrellas más baja, independientemente del producto, que si se trata de su vigésima evaluación. Si la información de origen colectivo es una característica clave del modelo de negocio de una organización y un motor de las elecciones de los consumidores, sería importante que los líderes empresariales tuvieran en cuenta sesgos como este y que los consumidores los conocieran.

Nuestros hallazgos recientes también plantean una pregunta interesante y abierta para los directivos: ¿Cómo podría afectar este sesgo en las evaluaciones a la contratación, los ascensos y las evaluaciones del desempeño? A pesar de los intentos de hacer evaluaciones precisas y justas, nuestras conclusiones sugieren que los procesos de evaluación beneficiarán a los candidatos entrevistados por un reclutador que haya estado haciendo evaluaciones durante períodos más largos. Lo estudiaremos ahora y buscaremos organizaciones con las que asociarnos.

También nos interesa saber si se obtendrían resultados similares en las decisiones de promoción y en los procesos secuenciales anuales de comentarios de 360 grados. De ser cierto, el impacto de estos sesgos podría generalizarse y afectar a gran parte de la fuerza laboral actual y futura.

Encontrar formas de mitigar este sesgo, como hacer que las evaluaciones de contratación, las revisiones del desempeño y los ascensos sean más precisas, es algo que también estamos ansiosos por analizar. En nuestros estudios observamos que la mayoría de las personas parecían no saber que, con el tiempo, los sesgos influían en las decisiones. Una posible solución es simplemente hacer que las personas sean conscientes de esta posible influencia en sus decisiones. Hay otras variables situacionales que también estamos intentando entender mejor.

Nuestros estudios tienen limitaciones que vale la pena señalar. A pesar del sesgo que encontramos en todos los contextos que estudiamos, muchos otros factores contribuyen a las decisiones de evaluación. El sesgo positivo a lo largo del tiempo es solo uno. En segundo lugar, hay algunos indicios de que, en determinadas condiciones, las evaluaciones también pueden volverse más negativas con el tiempo. Sin embargo, los factores y condiciones en los que las evaluaciones se vuelven más positivas o más negativas siguen siendo una pregunta sin respuesta.

Quizás la próxima vez que publique en Yelp o dedique tiempo a entrevistar a los candidatos, tenga en cuenta cuántas evaluaciones ya ha realizado y cómo su evaluación actual podría tener un resultado más positivo. Hacerlo podría ayudarle a evaluar con mayor precisión.

Por el contrario, cuando dependa de las evaluaciones numéricas de otras personas, tenga en cuenta que la valoración no solo refleja la calidad inherente del producto, sino que también puede ser más alta debido a los calificadores con más experiencia. De hecho, puede que valga la pena comprar esa botella de vino más vieja y con la puntuación más baja.