A/B Testing: How to Get It Right
por Ron Kohavi, Stefan Thomke

En 2012, un empleado de Microsoft que trabajaba en Bing tuvo la idea de cambiar la forma en que el motor de búsqueda mostraba los titulares de los anuncios. Desarrollarlo no requeriría mucho esfuerzo (solo unos días del tiempo de un ingeniero), pero era una de las cientos de ideas propuestas y los directores del programa la consideraron de baja prioridad. Así que languideció durante más de seis meses, hasta que un ingeniero, que vio que el coste de escribir el código sería reducido, lanzó un sencillo experimento controlado en línea (una prueba A/B) para evaluar su impacto. En cuestión de horas, la nueva variante del titular generó ingresos anormalmente altos y activó una alerta de «demasiado buena para ser verdad». Por lo general, estas alertas indican un error, pero no en este caso. Un análisis mostró que el cambio había aumentado los ingresos un asombroso 12% —lo que, sobre una base anual, ascendería a más de 100 millones de dólares solo en los Estados Unidos— sin afectar a los principales indicadores de la experiencia de usuario. Era la mejor idea generadora de ingresos de la historia de Bing, pero hasta la prueba su valor estaba infravalorado.
¡Humillante! Este ejemplo ilustra lo difícil que puede resultar evaluar el potencial de las nuevas ideas. Igual de importante es que demuestra las ventajas de tener la capacidad de ejecutar muchas pruebas de forma económica y simultánea, algo que cada vez más empresas están empezando a reconocer.
En la actualidad, Microsoft y varias otras empresas líderes, como Amazon, Booking.com, Facebook y Google, realizan cada una más de 10 000 experimentos controlados en línea al año, y muchas de ellas involucran a millones de usuarios. Las empresas emergentes y las empresas sin raíces digitales, como Walmart, Hertz y Singapore Airlines, también las gestionan con regularidad, aunque a menor escala. Estas organizaciones han descubierto que un enfoque de «experimentar con todo» tiene beneficios sorprendentemente grandes. Ha ayudado a Bing, por ejemplo, a identificar docenas de cambios relacionados con los ingresos que realizar cada mes, mejoras que, en conjunto, han aumentado los ingresos por búsqueda entre un 10 y un 25% cada año. Estas mejoras, junto con otros cientos de cambios mensuales que aumentan la satisfacción de los usuarios, son la razón principal por la que Bing es rentable y por la que su participación en las búsquedas estadounidenses realizadas en ordenadores personales ha aumentado hasta un 23%, frente al 8% de 2009, año de su lanzamiento.
En un momento en que la web es vital para casi todas las empresas, los rigurosos experimentos en línea deberían ser el procedimiento operativo estándar. Si una empresa desarrolla la infraestructura de software y las habilidades organizativas necesarias para llevarlas a cabo, podrá evaluar no solo las ideas para sitios web, sino también los posibles modelos de negocio, estrategias, productos, servicios y campañas de marketing, todo ello de forma relativamente económica. Los experimentos controlados pueden transformar la toma de decisiones en un proceso científico basado en la evidencia, en lugar de en una reacción intuitiva. Sin ellos, es posible que muchos avances no se produzcan nunca y se implementarían muchas malas ideas, solo para fracasar y desperdiciar recursos.
Sin embargo, hemos descubierto que demasiadas organizaciones, incluidas algunas de las principales empresas digitales, utilizan al azar su enfoque de experimentación, no saben cómo realizar pruebas científicas rigurosas o realizan muy pocas.
Juntos llevamos más de 35 años estudiando y practicando experimentos y asesorando a empresas de una amplia gama de sectores sobre ellos. En estas páginas compartiremos las lecciones que hemos aprendido sobre cómo diseñarlos y ejecutarlos, garantizar su integridad, interpretar sus resultados y abordar los desafíos que probablemente planteen. Aunque nos centraremos en el tipo de experimento controlado más simple, la prueba A/B, nuestros hallazgos y sugerencias se aplican también a los diseños experimentales más complejos.
Aprecie el valor de las pruebas A/B
En una prueba A/B, el experimentador establece dos experiencias: «A», el control, suele ser el sistema actual y se considera el «campeón», y «B», el tratamiento, es una modificación que intenta mejorar algo, el «retador». Los usuarios se asignan aleatoriamente a las experiencias y se calculan y comparan las métricas clave. (Las pruebas A/B/C univariables y las pruebas A/B/C/D y las pruebas multivariables, por el contrario, evalúan más de un tratamiento o las modificaciones de diferentes variables al mismo tiempo). En Internet, la modificación podría ser una nueva función, un cambio en la interfaz de usuario (por ejemplo, un nuevo diseño), un cambio de fondo (como una mejora de un algoritmo que, por ejemplo, recomienda libros en Amazon) o un modelo de negocio diferente (por ejemplo, una oferta de envío gratuito). Sea cual sea el aspecto de las operaciones que más importe a las empresas (ya sean las ventas, el uso repetido, las tasas de clics o el tiempo que los usuarios pasan en un sitio), pueden utilizar las pruebas A/B en línea para aprender a optimizarlo.
Cualquier empresa que tenga al menos unos cuantos miles de usuarios activos al día puede realizar estas pruebas. La posibilidad de acceder a grandes muestras de clientes, recopilar automáticamente enormes cantidades de datos sobre las interacciones de los usuarios en sitios web y aplicaciones y realizar experimentos simultáneos brinda a las empresas una oportunidad sin precedentes de evaluar muchas ideas de forma rápida, con gran precisión y con un coste insignificante por experimento incremental. Eso permite a las organizaciones iterar rápidamente, fallar rápido y cambiar.
Reconociendo estas virtudes, algunas de las principales empresas de tecnología han dedicado grupos enteros a crear, gestionar y mejorar una infraestructura de experimentación que pueden utilizar muchos equipos de productos. Esta capacidad puede ser una importante ventaja competitiva, siempre que sepa cómo utilizarla. Esto es lo que los directivos deben entender:
Los pequeños cambios pueden tener un gran impacto.
La gente suele suponer que cuanto mayor sea la inversión que hagan, mayor será el impacto que tendrán. Pero las cosas rara vez funcionan así en Internet, donde el éxito consiste más en hacer muchos pequeños cambios, ¿verdad? Aunque el mundo empresarial glorifica los grandes y disruptivos ideas, en realidad la mayor parte del progreso se logra mediante la implementación de cientos o miles de mejoras menores.
Poner ofertas de tarjetas de crédito en la página del carrito de la compra aumentó sus beneficios en millones.
Considere el siguiente ejemplo, de nuevo de Microsoft. (Si bien la mayoría de los ejemplos de este artículo provienen de Microsoft, donde Ron dirige la experimentación, ilustran las lecciones extraídas de muchas empresas). En 2008, un empleado del Reino Unido hizo una sugerencia aparentemente menor: hacer que se abriera automáticamente una nueva pestaña (o una nueva ventana en los navegadores más antiguos) cada vez que el usuario hiciera clic en el enlace de Hotmail de la página principal de MSN, en lugar de abrir Hotmail en la misma pestaña. Se realizó una prueba con unos 900 000 usuarios del Reino Unido y los resultados fueron muy alentadores: la participación de los usuarios que abrieron Hotmail aumentó un impresionante 8,9%, según el número de clics que hicieron en la página principal de MSN. (La mayoría de los cambios en la participación tienen un efecto inferior al 1%). Sin embargo, la idea fue controvertida porque pocos sitios de la época abrían enlaces en pestañas nuevas, por lo que el cambio solo se publicó en el Reino Unido.
En junio de 2010, el experimento se replicó con 2,7 millones de usuarios en los Estados Unidos, con resultados similares, por lo que el cambio se extendió a todo el mundo. Luego, para ver qué efecto podría tener la idea en otros lugares, Microsoft exploró la posibilidad de que las personas que hubieran iniciado una búsqueda en MSN abrieran los resultados en una pestaña nueva. En un experimento con más de 12 millones de usuarios en los Estados Unidos, los clics por usuario aumentaron un 5%. Abrir enlaces en pestañas nuevas es una de las mejores formas de aumentar la participación de los usuarios que Microsoft ha introducido en la historia, y todo lo que necesitó fue cambiar unas cuantas líneas de código. Hoy en día, muchos sitios web, incluidos Facebook.com y Twitter.com, utilizan esta técnica.
La experiencia de Microsoft no es única. Los experimentos de Amazon, por ejemplo, revelaron que mover las ofertas de tarjetas de crédito de la página de inicio a la página del carrito de la compra aumentaba las ganancias en decenas de millones de dólares al año. Está claro que las pequeñas inversiones pueden generar grandes beneficios. Sin embargo, las grandes inversiones pueden tener poco o ningún payoff. La integración de Bing en las redes sociales (de modo que el contenido de Facebook y Twitter se abriera en un tercer panel de la página de resultados de búsqueda) le costó a Microsoft más de 25 millones de dólares su desarrollo y produjo un aumento insignificante en la participación y los ingresos.
Los experimentos pueden guiar las decisiones de inversión.
Las pruebas en línea pueden ayudar a los directivos a determinar qué cantidad de inversión en una posible mejora es óptima. Fue una decisión a la que se enfrentó Microsoft cuando pretendía reducir el tiempo que tardaba Bing en mostrar los resultados de las búsquedas. Por supuesto, más rápido es mejor, pero ¿podría cuantificarse el valor de una mejora? ¿Debería haber tres, 10 o quizás 50 personas trabajando en esa mejora del rendimiento? Para responder a esas preguntas, la empresa llevó a cabo una serie de pruebas A/B en las que se añadieron retrasos artificiales para estudiar los efectos de las diferencias minúsculas en la velocidad de carga. Los datos mostraban que cada diferencia de 100 milisegundos en el rendimiento tenía un impacto del 0,6% en los ingresos. Dado que los ingresos anuales de Bing superan los 3 000 millones de dólares, una aceleración de 100 milisegundos equivale a 18 millones de dólares en ingresos incrementales anuales, suficientes para financiar un equipo importante.
Los resultados de las pruebas también ayudaron a Bing a hacer importantes concesiones, específicamente en relación con las funciones que podrían mejorar la relevancia de los resultados de búsqueda, pero reducir el tiempo de respuesta del software. Bing quería evitar una situación en la que muchas funciones pequeñas condujeran acumulativamente a una degradación significativa del rendimiento. Así que el lanzamiento de las funciones individuales que ralentizaban la respuesta más de unos pocos milisegundos se retrasó hasta que el equipo mejoró su rendimiento o el de otro componente.
Cree una capacidad a gran escala
Hace más de un siglo, el propietario de los grandes almacenes, John Wanamaker, acuñó el adagio de marketing «La mitad del dinero que gasto en publicidad se desperdicia; el problema es que no sé qué mitad». Hemos descubierto algo parecido con las nuevas ideas: la gran mayoría de ellas fracasan en los experimentos, e incluso los expertos suelen juzgar mal cuáles darán sus frutos. En Google y Bing, solo entre el 10 y el 20% de los experimentos generan resultados positivos. En Microsoft en su conjunto, un tercio demuestra ser eficaz, un tercio obtiene resultados neutrales y un tercio tiene resultados negativos. Todo esto demuestra que las empresas tienen que besar muchas ranas (es decir, realizar una enorme cantidad de experimentos) para encontrar un príncipe.
Cualquier cifra que parezca interesante o diferente suele ser incorrecta.
Es clave experimentar con todo para asegurarse de que los cambios no se degradan ni tienen efectos inesperados. En Bing, alrededor del 80% de los cambios propuestos se realizan primero como experimentos controlados. (Se excluyen algunas correcciones de errores de bajo riesgo y los cambios a nivel de la máquina, como las actualizaciones del sistema operativo).
Probar científicamente casi todas las ideas propuestas requiere una infraestructura: instrumentación (para registrar cosas como los clics, los movimientos del ratón y la hora de los eventos), canalizaciones de datos y científicos de datos. Varias herramientas y servicios de terceros facilitan la prueba de experimentos, pero si quiere ampliar las cosas, debe integrar perfectamente la capacidad en sus procesos. Eso reducirá el coste de cada experimento y aumentará su fiabilidad. Por otro lado, la falta de infraestructura mantendrá altos los costes marginales de las pruebas y podría hacer que los altos directivos se muestren reacios a pedir más experimentación.
Microsoft ofrece un buen ejemplo de una infraestructura de pruebas importante, aunque una empresa más pequeña o una cuya empresa no dependa tanto de la experimentación podría arreglárselas con menos, por supuesto. El equipo de análisis y experimentación de Microsoft está formado por más de 80 personas que, un día cualquiera, ayudan a realizar cientos de experimentos controlados en línea con varios productos, como Bing, Cortana, Exchange, MSN, Office, Skype, Windows y Xbox. Cada experimento expone a cientos de miles (y a veces incluso decenas de millones) de usuarios a una nueva función o cambio. El equipo realiza análisis estadísticos rigurosos en todas estas pruebas y genera automáticamente tarjetas de puntuación que comprueban cientos o miles de métricas y marcan los cambios importantes.
El personal de experimentación de una empresa se puede organizar de tres maneras:
Modelo centralizado.
En este enfoque, un equipo de científicos de datos sirve a toda la empresa. La ventaja es que pueden centrarse en proyectos a largo plazo, como crear mejores herramientas de experimentación y desarrollar algoritmos estadísticos más avanzados. Un inconveniente importante es que las unidades de negocio que utilizan el grupo pueden tener diferentes prioridades, lo que podría provocar conflictos en torno a la asignación de los recursos y los costes. Otro inconveniente es que los científicos de datos pueden parecer ajenos a la hora de tratar con las empresas y, por lo tanto, estar menos en sintonía con los objetivos y el conocimiento del dominio de las unidades, lo que podría dificultarles unir los puntos y compartir información relevante. Además, es posible que los científicos de datos carezcan de la influencia necesaria para persuadir a la alta dirección de que invierta en la creación de las herramientas necesarias o para que los directores corporativos y de las unidades de negocio confíen en los resultados de los experimentos.
Modelo descentralizado.
Otro enfoque consiste en distribuir a los científicos de datos entre las diferentes unidades de negocio. La ventaja de este modelo es que los científicos de datos pueden convertirse en expertos en todos los dominios empresariales. La principal desventaja es la falta de una trayectoria profesional clara para estos profesionales, que también pueden no recibir comentarios de sus compañeros ni tutorías que les ayuden a desarrollarse. Y es posible que los experimentos en unidades individuales no tengan la masa crítica necesaria para justificar la creación de las herramientas necesarias.
Modelo de centro de excelencia.
Una tercera opción es tener a algunos científicos de datos en una función centralizada y a otros en las diferentes unidades de negocio. (Microsoft utiliza este enfoque.) Un centro de excelencia se centra principalmente en el diseño, la ejecución y el análisis de experimentos controlados. Reduce significativamente el tiempo y los recursos que requieren esas tareas al crear una plataforma de experimentación para toda la empresa y las herramientas relacionadas. También puede difundir las mejores prácticas de evaluación en toda la organización mediante la organización de clases, laboratorios y conferencias. Las principales desventajas son la falta de claridad sobre lo que es propietario del centro de excelencia y lo que poseen los equipos de producto, quién debería pagar por la contratación de más científicos de datos cuando varias unidades aumenten sus experimentos y quién es responsable de invertir en alertas y comprobaciones que indiquen que los resultados no son fiables.
No existe un modelo correcto o incorrecto. Las pequeñas empresas suelen empezar con el modelo centralizado o utilizan una herramienta de terceros y, después, cuando crecen, cambian a uno de los otros modelos. En las empresas con varios negocios, los directivos que consideran que las pruebas son una prioridad no quieran esperar a que los líderes corporativos desarrollen un enfoque organizativo coordinado; en esos casos, un modelo descentralizado podría tener sentido, al menos al principio. Y si la experimentación en línea es una prioridad empresarial, tal vez la empresa quiera adquirir experiencia y desarrollar estándares en una unidad central antes de implementarlos en las unidades de negocio.
Abordar la definición de éxito
Cada grupo empresarial debe definir una métrica de evaluación adecuada (normalmente compuesta) para los experimentos que se ajuste a sus objetivos estratégicos. Puede que suene sencillo, pero es difícil determinar qué métricas a corto plazo son las que mejor predicen los resultados a largo plazo. Muchas empresas se equivocan. Hacerlo bien: idear un criterio de evaluación general (OEC): requiere una reflexión detenida y, a menudo, un extenso debate interno. Requiere una estrecha cooperación entre los altos ejecutivos que entienden la estrategia y los analistas de datos que entienden las métricas y las compensaciones. Y no es un ejercicio de una sola vez: recomendamos que la OEC se ajuste anualmente.
Llegar a una OEC no es sencillo, como demuestra la experiencia de Bing. Sus principales objetivos a largo plazo son aumentar su participación en las consultas en los motores de búsqueda y sus ingresos por publicidad. Curiosamente, reducir la relevancia de los resultados de búsqueda hará que los usuarios hagan más consultas (lo que aumentará el porcentaje de consultas) y harán más clic en los anuncios (lo que aumentará los ingresos). Obviamente, esos avances solo durarían poco, ya que la gente acabaría cambiando a otros motores de búsqueda. Entonces, ¿qué métricas a corto plazo predicen mejoras a largo plazo en la cuota de consultas y los ingresos? En su debate sobre la OEC, los ejecutivos y analistas de datos de Bing decidieron que querían minimizar el número de consultas de los usuarios para cada tarea o sesión y maximizar el número de tareas o sesiones que realizaron los usuarios.
También es importante desglosar los componentes de una OEC y hacer un seguimiento de ellos, ya que normalmente proporcionan información sobre el éxito de una idea. Por ejemplo, si el número de clics es parte integral del OEC, es fundamental medir en qué partes de la página se ha hecho clic. Analizar diferentes métricas es crucial, ya que ayuda a los equipos a descubrir si un experimento tiene un impacto imprevisto en otra área. Por ejemplo, un equipo que haga un cambio en las consultas de búsqueda relacionadas que se muestran (una búsqueda de, por ejemplo, «Harry Potter» mostrará consultas sobre libros de Harry Potter, películas de Harry Potter, el reparto de esas películas, etc.) puede que no se dé cuenta de que está alterando la distribución de las consultas (al aumentar las búsquedas de las consultas relacionadas), lo que podría afectar a los ingresos de forma positiva o negativa.
Con el tiempo, el proceso de crear y ajustar la OEC y entender las causas y los efectos se hace más fácil. Al realizar experimentos, depurar los resultados (de los que hablaremos más adelante) e interpretarlos, las empresas no solo adquirirán una valiosa experiencia con las métricas que funcionan mejor para ciertos tipos de pruebas, sino que también desarrollarán nuevas métricas. A lo largo de los años, Bing ha creado más de 6 000 métricas que los experimentadores pueden utilizar, que se agrupan en plantillas según el área de las pruebas (búsqueda en la web, búsqueda de imágenes, búsqueda de vídeos, cambios en los anuncios, etc.).
Tenga cuidado con los datos de baja calidad
No importa lo buenos que sean sus criterios de evaluación si la gente no confía en los resultados de los experimentos. Conseguir números es fácil; conseguir números en los que pueda confiar es difícil. Tiene que dedicar tiempo y recursos a validar el sistema de experimentación y a configurar controles y salvaguardias automatizados. Un método consiste en realizar rigurosas pruebas A/A, es decir, comprobar algo contra sí mismo para garantizar que, alrededor del 95% de las veces, el sistema no identifica correctamente ninguna diferencia estadísticamente significativa. Este sencillo enfoque ha ayudado a Microsoft a identificar cientos de experimentos no válidos y aplicaciones incorrectas de las fórmulas (como el uso de una fórmula que supone que todas las medidas son independientes cuando no lo son).
Hemos aprendido que los mejores científicos de datos son escépticos y siguen la ley de Twyman: cualquier cifra que parezca interesante o diferente suele ser errónea. Deberían replicarse los resultados sorprendentes, tanto para garantizar que son válidos como para disipar las dudas de la gente. En 2013, por ejemplo, Bing realizó una serie de experimentos con los colores de varios textos que aparecían en su página de resultados de búsqueda, incluidos títulos, enlaces y subtítulos. Aunque los cambios de color fueron sutiles, los resultados fueron inesperadamente positivos: mostraron que los usuarios que veían azules y verdes un poco más oscuros en los títulos y un negro un poco más claro en los subtítulos tenían éxito en sus búsquedas un porcentaje mayor de las veces y que los que encontraban lo que buscaban lo que querían lo hacían en mucho menos tiempo.
Como las diferencias de color apenas se perciben, es comprensible que varias disciplinas, incluidos los expertos en diseño, hayan visto los resultados con escepticismo. (Durante años, Microsoft, como muchas otras empresas, se había basado en diseñadores expertos —más que en el comportamiento de los usuarios reales— para definir las guías de estilo y los colores corporativos). Así que el experimento se volvió a ejecutar con una muestra mucho mayor de 32 millones de usuarios y los resultados fueron similares. Los análisis indicaron que, si se extendieran a todos los usuarios, los cambios de color aumentarían los ingresos en más de 10 millones de dólares al año.
Si quiere que los resultados sean fiables, debe asegurarse de que se utilizan datos de alta calidad. Puede que sea necesario excluir los valores atípicos, identificar los errores de recopilación, etc. En el mundo de Internet, este tema es especialmente importante por varias razones. Tomemos como ejemplo los bots de Internet. En Bing, más del 50% de las solicitudes provienen de bots. Esos datos pueden sesgar los resultados o añadir «ruido», lo que dificulta la detección de la significación estadística. Otro problema es la prevalencia de puntos de datos atípicos. Amazon, por ejemplo, descubrió que ciertos usuarios individuales hacían pedidos masivos de libros que podían sesgar toda una prueba A/B; resultó que eran cuentas de biblioteca.
Los gerentes también deben tener cuidado cuando algunos segmentos sufren efectos mucho mayores o menores que otros (un fenómeno que los estadísticos denominan «efectos de tratamiento heterogéneos»). En algunos casos, un solo segmento bueno o malo puede sesgar la media lo suficiente como para invalidar los resultados generales. Esto ocurrió en un experimento de Microsoft en el que un segmento, los usuarios de Internet Explorer 7, no podían hacer clic en los resultados de las búsquedas de Bing debido a un error de JavaScript y los resultados generales, que por lo demás eran positivos, pasaron a ser negativos. Una plataforma de experimentación debería detectar segmentos tan inusuales; si no lo hace, los experimentadores que analicen un efecto medio pueden descartar una buena idea por mala.
Los resultados también pueden estar sesgados si las empresas reutilizan las poblaciones de control y tratamiento de un experimento a otro. Esa práctica lleva a «efectos de arrastre», en los que la experiencia de las personas en un experimento altera su comportamiento futuro. Para evitar este fenómeno, las empresas deberían «mezclar» a los usuarios de un experimento a otro.
Otra comprobación común que realiza la plataforma de experimentación de Microsoft es validar que los porcentajes de usuarios de los grupos de control y tratamiento del experimento real coinciden con el diseño experimental. Cuando son diferentes, se produce un «desajuste de la proporción de muestras», lo que a menudo anula los resultados. Por ejemplo, una proporción de 50,2/49,8 (821.588 frente a 815.482 usuarios) se diferencia lo suficiente de la relación 50/50 esperada como para que la probabilidad de que se produzca por casualidad sea inferior a una entre 500 000. Estos desajustes se producen con regularidad (normalmente una vez a la semana) y los equipos deben ser diligentes a la hora de entender por qué y resolverlos.
Evite las suposiciones sobre la causalidad
Debido al bombo publicitario por el big data, algunos ejecutivos creen erróneamente que la causalidad no es importante. En sus mentes, todo lo que tienen que hacer es establecer una correlación y se puede inferir la causalidad. ¡Incorrecto!
Los dos ejemplos siguientes ilustran por qué y también destacan las deficiencias de los experimentos que carecen de grupos de control. La primera se refiere a dos equipos que realizaron estudios observacionales independientes de dos funciones avanzadas de Microsoft Office. Cada uno llegó a la conclusión de que la nueva función consistía en evaluar la reducción de la deserción. De hecho, casi cualquier función avanzada mostrará esa correlación, ya que las personas que prueban una función avanzada suelen ser usuarios habituales y los usuarios empedernidos suelen tener una menor deserción. Así que, si bien una nueva función avanzada puede estar correlacionada con una menor deserción, no necesariamente la provoca. Los usuarios de Office que reciben mensajes de error también tienen una menor deserción, ya que también suelen ser usuarios habituales. Pero, ¿eso significa que mostrar a los usuarios más mensajes de error reducirá la deserción? Difícilmente.
El segundo ejemplo se refiere a un estudio realizado por Yahoo para evaluar si los anuncios gráficos de una marca, publicados en los sitios de Yahoo, podían aumentar las búsquedas del nombre de la marca o de palabras clave relacionadas. La parte observacional del estudio estimó que los anuncios aumentaron el número de búsquedas un 871%, hasta el 1,198%. Pero cuando Yahoo realizó un experimento controlado, el aumento fue solo del 5,4%. Si no fuera por el control, la empresa podría haber llegado a la conclusión de que los anuncios tuvieron un impacto enorme y no se habría dado cuenta de que el aumento de las búsquedas se debió a otras variables que cambiaron durante el período de observación.
Algunos ejecutivos creen que lo único que tienen que hacer es establecer una correlación. ¡Incorrecto!
Está claro que los estudios observacionales no pueden establecer la causalidad. Esto es muy conocido en la medicina, por lo que la Administración de Alimentos y Medicamentos de los Estados Unidos exige que las empresas realicen ensayos clínicos aleatorios para demostrar que sus fármacos son seguros y eficaces.
Incluir demasiadas variables en las pruebas también dificulta aprender sobre la causalidad. Con estas pruebas es difícil desentrañar los resultados e interpretarlos. Lo ideal sería que un experimento fuera lo suficientemente simple como para que las relaciones de causa y efecto se pudieran entender fácilmente. Otro inconveniente de los diseños complejos es que hacen que los experimentos sean mucho más vulnerables a los errores. Si una nueva función tiene un 10% de probabilidades de provocar un problema grave que requiera abortar su prueba, la probabilidad de que un cambio que implique siete funciones nuevas tenga un error grave es superior al 50%.
¿Y si puede determinar que una cosa causa la otra, pero no sabe por qué? ¿Debería tratar de entender el mecanismo causal? La respuesta corta es sí.
Entre 1500 y 1800, unos 2 millones de marineros murieron de escorbuto. Hoy sabemos que el escorbuto se debe a la falta de vitamina C en la dieta, que sufren los marineros porque no tenían un suministro adecuado de fruta en los viajes largos. En 1747, el Dr. James Lind, cirujano de la Royal Navy, decidió hacer un experimento para probar seis posibles curas. En un viaje, regaló naranjas y limones a algunos marineros y a otros remedios alternativos, como el vinagre. El experimento mostró que los cítricos podían prevenir el escorbuto, aunque nadie sabía por qué. Lind creyó erróneamente que la acidez de la fruta era la cura e intentó crear un remedio menos perecedero calentando el zumo de los cítricos hasta convertirlo en un concentrado, lo que destruía la vitamina C. No fue hasta 50 años después, cuando se añadió zumo de limón sin calentar a las raciones diarias de los marineros, que la Royal Navy finalmente eliminó el escorbuto entre sus tripulaciones. Presumiblemente, la cura podría haber llegado mucho antes y haber salvado muchas vidas si Lind hubiera realizado un experimento controlado con zumo de limón caliente y sin calentar.
Dicho esto, debemos señalar que no siempre tiene que saber el «por qué» o el «cómo» para beneficiarse del conocimiento del «qué». Esto es particularmente cierto en lo que respecta al comportamiento de los usuarios, cuyas motivaciones pueden resultar difíciles de determinar. En Bing, algunos de los mayores avances se lograron sin una teoría subyacente. Por ejemplo, aunque Bing pudo mejorar la experiencia de usuario con esos cambios sutiles en los colores del tipo de letra, no hay teorías bien establecidas sobre el color que le ayuden a entender por qué. Aquí las pruebas sustituyeron a la teoría.
CONCLUSIÓN
El mundo de Internet a menudo se considera turbulento y lleno de peligros, pero los experimentos controlados pueden ayudarnos a navegarlo. Pueden indicarnos la dirección correcta cuando las respuestas no son obvias o las personas tienen opiniones contradictorias o no están seguras del valor de una idea.
Hace varios años, Bing estaba debatiendo si hacer que los anuncios fueran más grandes para que los anunciantes pudieran incluir enlaces a páginas de destino específicas en ellos. (Por ejemplo, una compañía de préstamos puede proporcionar enlaces como «comparar tasas» y «acerca de la empresa» en lugar de solo uno a la página de inicio). Un inconveniente era que los anuncios más grandes obviamente ocuparían más espacio en la pantalla, lo que se sabe que aumenta la insatisfacción y la pérdida de usuarios. Las personas que estaban considerando la idea estaban divididas. Así que el equipo de Bing experimentó con aumentar el tamaño de los anuncios y mantener constante el espacio total de pantalla asignado a los anuncios, lo que significaba mostrar menos anuncios. El resultado fue que mostrar menos anuncios pero más grandes supuso una gran mejora: los ingresos aumentaron más de 50 millones de dólares al año sin perjudicar a los aspectos clave de la experiencia de usuario.
Si realmente quiere entender el valor de un experimento, observe la diferencia entre el resultado esperado y el resultado real. Si pensaba que algo iba a pasar y pasó, entonces no ha aprendido mucho. Si pensaba que algo iba a pasar y no fue así, entonces ha aprendido algo importante. Y si pensaba que iba a ocurrir algo pequeño y los resultados son una gran sorpresa y conducen a un gran avance, ha aprendido algo muy valioso.
Al combinar la potencia del software con el rigor científico de los experimentos controlados, su empresa puede crear un laboratorio de aprendizaje. Los beneficios que obtenga (en ahorros de costes, nuevos ingresos y mejora de la experiencia de usuario) pueden ser enormes. Si quiere obtener una ventaja competitiva, su empresa debería desarrollar una capacidad de experimentación y dominar la ciencia de la realización de pruebas en línea.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.