PathMBA Vault

Consumer behavior

Investigación: Cómo los principales críticos sesgan las valoraciones en Internet

por Tommaso Bondi, Michelangelo Rossi, Ryan Louis Stevens

Investigación: Cómo los principales críticos sesgan las valoraciones en Internet

Hoy en día, los consumidores suelen empezar una nueva serie de televisión confirmando su estado de «fresca» en Rotten Tomatoes, reservan en un restaurante según sus valoraciones en Yelp y consultan las reseñas de los productos antes de realizar una compra en Amazon.

Pero, ¿hasta qué punto podemos confiar en la información de estas reseñas? Más allá el bien documentado número de las críticas falsas, el simple hecho de sumar las valoraciones sin procesar puede resultar engañoso. Como hemos documentado en nuestra investigación, que se publicará próximamente en Ciencias de la Gestión, esto se debe a una combinación de dos factores: los consumidores más experimentados tienden a comprar (y a valorar) productos de mayor calidad y, como resultado, a tener expectativas más altas. ¿El resultado? Los productos de mayor calidad cumplen con un estándar más alto y pueden recibir una valoración media más baja que sus alternativas de menor calidad.

Es fácil encontrar ejemplos de este sesgo. Una cámara de calidad profesional puede parecer decepcionante para los fotógrafos de National Geographic que la compran, ya que están acostumbrados a un equipo de primer nivel. Por el contrario, una cámara de menor calidad podría hacer las delicias de los usuarios aficionados. La misma distorsión se aplica al comparar restaurantes con estrellas Michelin con cadenas de comida rápida, en clase ejecutiva con vuelos en clase económica o hoteles de cinco estrellas con moteles económicos. Como los consumidores de estos productos provienen de distintos segmentos, comparar sus valoraciones se convierte en un dilema de «manzanas y naranjas», lo que engaña a los futuros compradores.

Se podría argumentar que los precios explican estas diferencias. ¿Un restaurante con estrella Michelin que cuesta cientos de dólares no debería tener un estándar diferente al de una comida rápida de 10 dólares? Si bien este es sin duda un argumento válido, pensamos que era solo la mitad de la historia. Para demostrarlo, optamos por estudiar este sesgo en un mercado con precios uniformes: las películas.

El caso de la clasificación de películas

Analizamos más de 9 000 películas en IMDb que recibieron un total de más de 650 millones de valoraciones. IMDb destaca cómodamente la puntuación media de cada película y ofrece puntuaciones distintas de sus «1000 mejores» usuarios, los que han valorado más títulos en la plataforma. Para profundizar en nuestro análisis, también incorporamos 15 millones de valoraciones individuales de MovieLens, un popular sitio de recomendaciones de películas. Para medir la calidad, utilizamos poderes externos, como premios de festivales, nominaciones y críticas de críticos profesionales.

Como era de esperar, los 1000 mejores usuarios de IMDb tienden a ver películas de mayor calidad y a valorarlas de forma más estricta. Entre las películas con características similares (año de producción, género y número de críticas), las que tienen al menos un premio o una nominación recibieron más de un 5% más de valoración entre los 1000 mejores usuarios. Es más, estos usuarios obtuvieron puntuaciones más bajas que el usuario medio en un asombroso 98% de las películas que estudiamos.

En conjunto, estos hallazgos revelan un claro sesgo en contra de las películas de mayor calidad: dado que estas películas deben impresionar a un público más informado y crítico, sus índices de audiencia se ven afectados en comparación con las de menor calidad.

Un remedio fácil de implementar

Este sesgo, si bien es generalizado, se puede corregir con una solución sencilla. La clave es ajustar el rigor de los usuarios a la hora de calcular las puntuaciones. Basándonos en las valoraciones individuales de MovieLens, medimos el «rigor» de cada usuario comparando sus puntuaciones con la puntuación media de las mismas películas. Por ejemplo, si un usuario siempre ha valorado las películas por debajo de las demás, aumentamos sus puntuaciones en consecuencia. A continuación, recalculamos las valoraciones ajustadas de cada usuario y las agregamos para cada película. Como las calificaciones y el rigor son interdependientes, repetimos este proceso hasta que los ajustes se estabilizaron.

Los resultados validaron nuestra teoría: las puntuaciones ajustadas se correlacionaban mejor con los indicadores de calidad externos, como las nominaciones y los premios de los principales festivales de cine, como Sundance, Toronto, Cannes y Venecia.

Implicaciones para las plataformas

Nuestro estudio pone de relieve un problema fundamental con las valoraciones de los consumidores. Incluso si asumiéramos que todos los consumidores valoran de forma honesta (pero subjetiva) y que no hay reseñas falsas, las comparaciones de las puntuaciones medias pueden resultar profundamente engañosas en cuanto a las cualidades relativas de los productos, ya que los diferentes productos se rigen por estándares completamente diferentes.

Nuestros resultados también ofrecen una posible explicación de la brecha de larga data entre las opiniones de los críticos y las de los consumidores comunes. Si bien el gusto puede influir, nuestras conclusiones sugieren que esta brecha también se ve alimentada por la mala agregación de las opiniones de los consumidores. Analizar las valoraciones de los 1000 usuarios promedio y de los 1000 mejores (estos últimos podrían, en muchos sentidos, parecerse a los críticos profesionales en su gusto y comportamiento de valoración) valida aún más este punto, ya que encontramos una correlación muy alta entre ambos. En otras palabras, a los usuarios promedio y a los 1000 mejores les suelen gustar las mismas películas, pero a los 1000 mejores usuarios les suelen gustar prácticamente todas las películas menos.

Varias plataformas priorizan y amplifican las opiniones de sus usuarios más experimentados. Si bien esta estrategia tiene sus ventajas obvias, puede penalizar aún más los productos de mayor calidad al hacer demasiado hincapié en las reseñas más estrictas. Para solucionar esto, las plataformas podrían normalizar las valoraciones ajustándose al rigor de los usuarios. Este enfoque también ofrece ventajas adicionales: por ejemplo, descuenta las valoraciones sospechosamente favorables de críticos falsos o de pago sin requerir la identificación explícita de las reseñas falsas.

Los directivos también deberían replantearse su confianza en las primeras reseñas de consumidores con mucha experiencia. Si bien estos usuarios suelen ofrecer comentarios detallados y reflexivos, sus normas más estrictas pueden resultar en evaluaciones más duras. Por ejemplo, los autores que solicitan reseñas anticipadas en Goodreads pueden darse cuenta de que los principales críticos valoran sus libros de forma más crítica que los lectores generales.

En última instancia, las plataformas deben reconocer que los sesgos en las valoraciones de los consumidores no son solo una consecuencia de los malos actores (por ejemplo, las críticas falsas), sino que están profundamente arraigados en el diseño de los sistemas de comentarios. Los algoritmos que se ajustan a este sesgo ofrecen un camino prometedor, ya que permiten a los mercados y las redes mejorar la equidad y la fiabilidad de sus productos.