Las altas valoraciones de los usuarios en Internet no significan realmente que vaya a recibir un producto de calidad
por Bart de Langhe, Phil Fernbach, Donald R. Lichtenstein
Cuando uno de nosotros (Bart) quiso comprar una silla de coche para su nuevo hijo, fue a Amazon.com, introdujo algunos términos de búsqueda y clasificó los resultados según la valoración media por estrellas. Redujo su elección a dos opciones: una era considerablemente más cara, pero tenía una valoración media más alta, de 4,6 a 3,8. Al final, optó por esta opción, con el argumento de que la calidad adicional merecía la pena dada la importancia de la compra.
Suena razonable, ¿verdad? Al fin y al cabo, las valoraciones y reseñas de los usuarios en Internet son ahora una de las fuentes más importantes de información sobre la calidad de los productos. A los consumidores les encantan porque son gratuitos, están ampliamente disponibles, son de fácil acceso y, aparentemente, objetivos. La llegada de las reseñas en línea ha llevó a algunos a discutir que el poder de las marcas y las tácticas de marketing tradicionales está disminuyendo y que los consumidores toman decisiones más informadas y racionales.
Pero según nuestras investigaciones recientes, es posible que Bart haya sido engañado al buscar una silla de coche. El punto culminante es que la confianza que depositamos en las valoraciones por estrellas refleja una ilusión de validez; confiamos en ellas mucho más de lo que deberíamos. Es posible que las valoraciones en línea no reflejen en absoluto la calidad del producto.
Hay un montón de problemas con las valoraciones de los usuarios, suponiendo que lo sean incluso auténtico. Se pueden dividir en tres categorías: estadística, muestreo y evaluación.
- Cuestiones estadísticas se deben al hecho de que solo observamos las puntuaciones de las reseñas de un subconjunto de usuarios del producto. La valoración media de esta muestra no coincide perfectamente con la valoración media que habríamos obtenido si todos los usuarios del producto habían dejado una opinión. Podemos confiar más en una valoración media por estrellas si el tamaño de la muestra es grande y si la variabilidad de la distribución de las puntuaciones es menor (es decir, si los diferentes críticos tienden a estar de acuerdo). Lamentablemente, los tamaños de las muestras no suelen ser lo suficientemente grandes como para garantizar la comodidad estadística. La variabilidad también tiende a ser alta por varios motivos, incluido el ruido aleatorio. Un crítico puede calificar un producto incorrecto o dejar una valoración baja debido a una queja sobre el envío, por ejemplo, que tiene poco que ver con el producto en sí.
- Problemas de muestreo se deben al hecho de que el subconjunto de usuarios que deja una reseña no se muestrea aleatoriamente de los que han comprado el producto. Los consumidores con opiniones extremas tienen más probabilidades de publicar reseñas, lo que se conoce como sesgo de «presumir y quejarse». Como consecuencia, muchas distribuciones de clasificación tienen forma de J con en su mayoría valoraciones de 5 estrellas, algunas de 1 estrella y casi ninguna valoración intermedia. También valoraciones positivas aumentar la probabilidad de obtener valoraciones positivas posteriores.
- Cuestiones de evaluación se deben al hecho de que evaluar con precisión el rendimiento del producto requiere un enfoque científico. Hay que probar las alternativas una al lado de la otra en las mismas condiciones y medir el rendimiento objetivo con instrumentos sofisticados y, a menudo, caros. Los usuarios que publican reseñas no tienen los conocimientos, el equipo ni el tiempo para evaluar el rendimiento del producto de esta manera. Considere el ejemplo anterior de la silla de coche. Un usuario normal no puede evaluar fácilmente muchas dimensiones del rendimiento (seguridad, fiabilidad), y la mayoría de los usuarios solo prueban un solo producto, en lugar de utilizar y comparar una variedad de sillas de coche. Además, es bien sabido que las evaluaciones de calidad de los consumidores son en gran medida sesgado por variables distintas del rendimiento objetivo del producto, como la imagen de marca, el precio y el aspecto físico.
A la luz de estas cuestiones, emprendimos nuestro proyecto de investigación para responder a dos preguntas. En primer lugar, ¿la valoración media por estrellas es un buen indicador de la calidad del producto? Analizamos 1272 productos en 120 categorías de productos y restringimos nuestro estudio a las categorías de productos en las que el rendimiento objetivo se puede definir y medir con claridad (como sillas de coche, cascos de bicicleta, bloqueador solar, frigoríficos y televisores).
En segundo lugar, ¿cuánto confían los consumidores en la valoración media por estrellas como indicador de calidad? Para responder a esta pregunta, realizamos una serie de estudios de laboratorio en los que pedimos a los participantes que evaluaran la calidad del producto tras inspeccionar las páginas web de los productos en Amazon.com. Luego evaluamos hasta qué punto sus juicios de calidad dependían de la valoración media por estrellas en comparación con otras señales que podrían haber utilizado, como el precio. Estas son algunas de nuestras principales conclusiones:
La valoración media por estrellas tiene una correspondencia sorprendentemente baja con los parámetros de calidad establecidos. Hemos examinado hasta qué punto las puntuaciones medias de las reseñas de Amazon.com se corresponden con las puntuaciones de Consumer Reports, una organización que se especializa en pruebas científicas de productos. La correspondencia era bastante pequeña. De hecho, el producto con más estrellas en Amazon.com solo recibió una puntuación más alta de Consumer Reports El 57% de las veces, lo que es un poco mejor que lanzar una moneda al aire.
La línea continua del siguiente gráfico muestra la correspondencia en función de la diferencia en las valoraciones medias por estrellas. Cuando la diferencia entre dos opciones de productos es inferior a 0,4 estrellas (como ocurre en aproximadamente la mitad de las comparaciones de nuestro conjunto de datos), la correspondencia es casual (el 50%). La correspondencia aumenta a medida que aumenta la diferencia en la valoración de los usuarios, pero el aumento es modesto y nunca supera el 70%.
Otro indicador tradicional de calidad es el valor de reventa. Los productos con mayor fiabilidad y rendimiento conservan más valor con el tiempo y, por lo tanto, si las valoraciones medias de los usuarios reflejan una calidad objetiva, deberían correlacionarse positivamente con los valores de reventa. Hemos recopilado los valores de reventa en camelcamelcamel.com, un sitio web de seguimiento de precios en línea, y en usedprice.com, un servicio exclusivo que utiliza encuestas de concesionarios y otras fuentes para estimar los precios usados. En ambos casos, la valoración media por estrellas no tenía prácticamente ninguna relación con los precios usados. Por el contrario, Consumer Reports las puntuaciones sí predijeron los valores de reventa.
Las valoraciones medias por estrellas suelen basarse en tamaños de muestra insuficientes, pero los consumidores confían en ellos de todos modos. Como la diferencia en las valoraciones medias de los usuarios de dos productos es inferior a 0,40 aproximadamente la mitad de las veces, se necesitan muestras de gran tamaño para garantizar que las comparaciones (por ejemplo, un 4,5 frente a un 4,1) tienen sentido desde el punto de vista estadístico. Por desgracia, los tamaños de las muestras suelen ser demasiado pequeños para concluir mucho. Alrededor del 50% de los productos tienen menos de 50 valoraciones.
Piense en un producto con una valoración media de 4 estrellas. Un posible comprador puede estar un 95% seguro de que la media se sitúa entre 3,5 y 4,5 si 25 usuarios valoran el producto; pero un tamaño de muestra mayor podría indicarnos que la verdadera valoración por estrellas del producto es tampoco 3,5 o 4,5, que los consumidores perciben de forma completamente diferente. El intervalo de confianza del 95% se reduce a medida que aumenta el tamaño de la muestra. Va de 3,6 a 4,4 si 50 consumidores han valorado el producto y de 3,7 a 4,3 si 100 consumidores han valorado el producto. Sin embargo, aunque 200 consumidores hayan valorado el producto, el intervalo de confianza del 95% sigue oscilando entre 3,8 y 4,2 y, por lo tanto, es demasiado amplio para concluir demasiado si dos productos se diferencian solo en 0,4 estrellas.
A pesar de ello, los consumidores ignoran casi por completo el tamaño de la muestra a la hora de juzgar la calidad en función de la valoración por estrellas. Nuestros estudios muestran que los compradores se basan tanto en la valoración media de 25 usuarios como en una de 200 usuarios.
Mantener una calidad constante, los productos más caros y las marcas con mejor reputación obtienen mejores valoraciones. Las valoraciones por estrellas están sesgadas al alza para los productos caros y para los de marcas de primera calidad. Por lo tanto, las valoraciones de los usuarios están muy influenciadas por las viejas tácticas de marketing, como la publicidad y la señalización de precios. Lo encontramos para dos productos con la misma puntuación de Consumer Reports, pasando de un producto de una marca a los 10 la percentil en términos de reputación de marca (por ejemplo, una cámara digital Casio) a uno en los 90 la El percentil (por ejemplo, una cámara digital Sony) vale unas 0,4 estrellas. Y pasando de un precio a los 10 la percentil a uno en los 90 la el percentil se asocia a una diferencia de unas 0,2 estrellas. Las valoraciones por estrellas están más relacionadas con la imagen de la marca y el precio que con Consumer Reports puntuaciones.
Como hemos dicho anteriormente, este resultado concuerda con muchos años de investigación sobre cómo los consumidores se forman una percepción de calidad, por lo que desde esa perspectiva no es tan sorprendente. De hecho, Nate Silver encontró un resultado similar al analizar las valoraciones en Yelp de los restaurantes de la ciudad de Nueva York: controlando el número de estrellas Michelin, los restaurantes más caros tienen una valoración más alta en Yelp. Sin embargo, también descubrimos que los consumidores no anticipan estos efectos sesgados. De hecho, la mayoría de los participantes en nuestros estudios tienen precisamente una intuición equivocada, al menos en lo que respecta al precio: piensan que los críticos penalizan los productos por ser más caros cuando ocurre lo contrario.
Al final, nos encantan las valoraciones por estrellas porque parecen imparciales, aunque no lo sean. Cuando un vendedor nos recomienda comprar una silla de coche más cara porque es más segura, muchos de nosotros consideraremos la posibilidad de que el vendedor esté motivado para ganar una comisión. Del mismo modo, cuando Roger Federer o Tiger Woods recomiendan a Gillette para afeitarse mejor, asumimos que son patrocinadores pagados de la marca. Los consumidores no aceptan ciegamente toda la información que reciben sobre los productos y las marcas, especialmente cuando sospechan de una subyacente persuasión motivo. Aunque los motivos de persuasión son muy accesibles cuando hablamos con un vendedor o vemos un anuncio, bajamos la guardia cuando absorbemos información de otros usuarios. Esto es un error.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.