¿Quiere que su empresa mejore en la experimentación?
por Iavor Bojinov, David Holtz, Ramesh Johari, Sven Schmit, Martin Tingley

Durante años, la experimentación en línea ha impulsado las innovaciones de las principales empresas de tecnología, lo que les ha permitido probar y refinar rápidamente nuevas ideas, optimizar las funciones de los productos, personalizar las experiencias de los usuarios y mantener una ventaja competitiva. La disponibilidad generalizada y el menor coste de las herramientas de experimentación actuales hacen que la mayoría de las organizaciones, incluso fuera del sector de la tecnología, realicen pruebas. Sin embargo, tras la adopción inicial, muchos de ellos restringen la experimentación a unos pocos proyectos cuidadosamente seleccionados. Esto se debe a que sus científicos de datos son los únicos que pueden diseñar, ejecutar y analizar las pruebas. Aumentar considerablemente la capacidad de realizar experimentos en línea es cada vez más importante a medida que la expansión de las capacidades y aplicaciones de la inteligencia artificial, especialmente la IA generativa, remodelan la innovación. Ampliar la experimentación implica pasar de un enfoque centrado en los científicos de datos a uno que permita a todos los demás miembros de los equipos de producto, marketing y ventas realizar experimentos. Los autores sugieren cómo hacerlo.
Durante años, la experimentación en línea ha impulsado las innovaciones de las principales empresas de tecnología, como Amazon, Alphabet, Meta, Microsoft y Netflix, lo que les ha permitido probar y refinar rápidamente nuevas ideas, optimizar las funciones de los productos, personalizar las experiencias de los usuarios y mantener una ventaja competitiva. Debido a la disponibilidad generalizada y al menor coste de las herramientas de experimentación actuales, la mayoría de las organizaciones, incluso las que no pertenecen al sector de la tecnología, realizan experimentos en línea.
Sin embargo, muchas empresas utilizan la experimentación en línea solo para unos pocos proyectos cuidadosamente seleccionados. Esto se debe a que sus científicos de datos son los únicos que pueden diseñar, ejecutar y analizar las pruebas. Es imposible ampliar ese enfoque, y la escala importa. Una investigación de Microsoft (replicada en otras empresas) revela que los equipos y las empresas que realizan muchas pruebas superan a los que solo realizan unas pocas, por dos razones: como la mayoría de las ideas no tienen un impacto positivo y es difícil predecir cuáles tendrán éxito, las empresas deben realizar muchas pruebas. Y a medida que el crecimiento de la IA, especialmente la IA generativa, abarata y facilita la creación de numerosas experiencias de productos digitales, deben aumentar considerablemente el número de experimentos que realizan (a cientos o incluso miles) para mantenerse competitivos.
Ampliar la experimentación implica pasar de un enfoque centrado en los científicos de datos a uno que potencie todo el mundo en los equipos de producto, marketing, ingeniería y operaciones (directores de producto, ingenieros de software, diseñadores, directores de marketing y especialistas en optimización de motores de búsqueda) para realizar experimentos. Pero eso representa un desafío. Basándonos en nuestra experiencia trabajando y consultando con organizaciones líderes como Airbnb, LinkedIn, Eppo, Netflix y Optimizely, ofrecemos una hoja de ruta para utilizar la experimentación para aumentar la ventaja competitiva de una empresa mediante (1) la transición a un modelo de autoservicio que permita poner a prueba cientos o incluso miles de ideas al año y (2) centrarnos en la innovación basada en hipótesis, tanto aprendiendo de los experimentos individuales como del aprendizaje al otro lado experimentos para impulsar decisiones estratégicas sobre la base de los comentarios de los clientes. Estos dos pasos en conjunto pueden preparar a las organizaciones para triunfar en la era de la IA al innovar y aprender más rápido que sus competidores. (Las opiniones expresadas en este artículo son nuestras y no representan las de las empresas que hemos mencionado.)
El estado actual
Los conceptos básicos de la experimentación son sencillos. Realizar una prueba A/B implica tres pasos principales: crear un retador (o variante) que se desvíe del status quo; definir una población objetivo (el subconjunto de clientes a los que se dirige la prueba) y seleccionar una métrica (como la participación del producto o la tasa de conversión) que se utilizará para evaluar el resultado. He aquí un ejemplo: a finales de 2019, cuando uno de nosotros (Martin) dirigía su equipo de plataformas de experimentación, Netflix comprobó si añadir una fila entre las 10 mejores (el retador) en su interfaz de usuario para mostrar a los miembros (la población objetivo) las películas y series de televisión más populares de su país mejoraría la experiencia del usuario según la participación de los espectadores en Netflix (la métrica de resultados). El experimento reveló que el cambio sí mejoró la experiencia del usuario sin afectar a otros resultados empresariales importantes, como el número de tickets de servicio de atención al cliente o los tiempos de carga de la interfaz de usuario. Así que la fila de los 10 mejores se publicó para todos los usuarios a principios de 2020. Como ilustra este ejemplo, la experimentación permite a las organizaciones tomar decisiones basadas en los datos en función del comportamiento observado de los clientes.
Barreras para ampliar la experimentación
Los equipos de ciencia de datos suelen liderar la adopción de la experimentación en línea. Tras el éxito inicial, las organizaciones tienden a caer en la rutina y las devoluciones siguen siendo limitadas. Un patrón común que vemos es el siguiente: la organización invierte en una plataforma técnicamente capaz de diseñar, ejecutar y analizar experimentos. Las grandes empresas de tecnología crean sus propias plataformas internamente; otras suelen comprarlas a los vendedores. Aunque estas herramientas están ampliamente disponibles, invertir en ellas es caro. Crear una plataforma puede llevar más de un año y normalmente se requiere un equipo de cinco a 10 ingenieros. Las plataformas externas suelen costar menos y se implementan más rápido, pero aun así requieren recursos dedicados para integrarse con los procesos de desarrollo internos de la organización y obtener la aprobación de los departamentos legal, financiero y de ciberseguridad.
Tras la inversión inicial, los líderes que patrocinaron la plataforma (normalmente los directores de ciencia de datos y productos) se ven presionados para demostrar rápidamente su valor puntuando los éxitos, experimentos que arrojan resultados positivos significativos desde el punto de vista estadístico a favor del retador. En un intento de evitar resultados negativos, intentan anticipar qué ideas tendrán un gran impacto, algo que es excepcionalmente difícil de predecir. Por ejemplo, a finales de 2012, cuando Airbnb lanzó sus guías de viaje vecinales (páginas web con las cosas que hacer, los mejores restaurantes, etc.), el contenido tuvo un gran número de visitas, pero en general las reservas disminuyeron. Por el contrario, cuando la empresa introdujo una modificación trivial (la posibilidad de abrir un anuncio de alojamiento en una nueva pestaña del navegador en lugar de en la existente, lo que facilitó la comparación de varios anuncios), las reservas aumentaron entre un 3 y un 4%, lo que lo convirtió en uno de los experimentos más exitosos de la empresa.
Jamie Chung/Trunk Archive
Motivados por convertir cada experimento en un éxito, los equipos suelen analizar en exceso cada uno de ellos, y los científicos de datos dedican más de 10 horas a cada experimento. Los resultados se difunden en memorandos y se discuten en reuniones de desarrollo de productos, lo que consume muchas horas de tiempo de los empleados. Aunque, en principio, las notas están ampliamente disponibles, las conclusiones que contienen nunca se sintetizan para identificar patrones y lecciones generalizables, ni se archivan de forma estandarizada. Como resultado, no es raro que diferentes equipos (o incluso el mismo equipo después de que sus miembros se hayan dado la vuelta) pongan a prueba repetidamente una idea infructuosa.
Con el objetivo de aumentar la adopción y los beneficios de la experimentación, los líderes de ciencia de datos y productos tienden a centrarse en los cambios graduales: aumentar el tamaño de los equipos de productos para realizar más experimentos y priorizar más fácilmente las ideas que van a probar; contratar a más científicos de datos para analizar el aumento del número de pruebas y reducir el tiempo necesario para ejecutarlas; e organizar más reuniones de intercambio de conocimientos para difundir los resultados. Sin embargo, según nuestra experiencia, esas tácticas no tienen éxito. Los gerentes se esfuerzan por identificar qué pruebas tendrán un impacto significativo; contratar a más científicos de datos solo proporciona un aumento marginal de la capacidad de experimentación; y las reuniones para compartir conocimientos no crean conocimiento institucional. Estas tácticas pueden parecer sensatas, pero acaban limitando la adopción de la experimentación porque los procesos que establecen no se amplían.
Democratizar la experimentación
Para lograr que toda la empresa experimente con decisiones basadas en datos, las empresas tienen que hacer la transición a un enfoque de autoservicio: capacitar a todos los empleados de los equipos de producto, marketing, ingeniería y operaciones para probar los cambios pequeños y grandes y, luego, aprender de los resultados y actuar en función de ellos. Eso significa incluir algunas funciones importantes en la plataforma y rediseñar los puestos de los científicos de datos.
La plataforma.
La organización de ciencia de datos (científicos de datos, ingenieros de datos e ingenieros de software) debe asegurarse de que la plataforma contiene las siguientes funciones, tanto si se crea internamente como si se compra.
Una interfaz sencilla y fácil de entender.
Airbnb tenía un sistema de este tipo, que permitía a un solo ingeniero implementar y probar la función que abría los anuncios de alojamiento en una pestaña nueva.
La capacidad de imponer automáticamente el rigor estadístico.
Tareas como determinar la duración adecuada para un tipo concreto de experimento y los criterios para decidir si los resultados son significativos deben automatizarse utilizando datos históricos.
Protocolos de experimentación integrados.
Las instrucciones deben proporcionar la configuración por defecto para la mayoría de los aspectos de los experimentos estándar, como la selección métrica de decisiones. Estos protocolos permiten a los usuarios diseñar e iniciar experimentos con un mínimo aporte de los científicos de datos.
Reversiones automatizadas.
Se trata de criterios cuantitativos que actúan como cables trampa para detener un experimento si su impacto es demasiado negativo, por ejemplo, una caída significativa en el número de usuarios activos diarios de una red social. El impacto se mide mediante métricas de barandilla, medidas secundarias que garantizan que, si bien se centra en mejorar un resultado, no perjudica involuntariamente otras áreas importantes, como la experiencia del usuario, los ingresos o la estabilidad del sistema. Cuando se realizan un gran número de experimentos al mismo tiempo, esa función es vital.
Un asistente de IA que proporciona explicaciones fáciles de entender de conceptos complejos.
Este elemento principal puede simplificar el diseño y el análisis de los experimentos, haciendo que el proceso sea accesible incluso para los usuarios novatos.
El papel de los científicos de datos.
Además de configurar la plataforma, los científicos de datos deberían ser responsables de formar a los empleados, crear los materiales para esa formación y trabajar en horario de oficina para responder a preguntas complejas una vez que todos estén en funcionamiento. El tiempo que dedican a la mayoría de las pruebas se reducirá a casi cero porque ya no participarán en la ejecución o el análisis. (Seguirán realizando pruebas novedosas, como la primera en un nuevo espacio de productos, y se les llamará cuando los resultados sean difíciles de interpretar. Pero esas son las excepciones.) De este modo, pueden centrarse en proyectos de mayor impacto que aprovechen su experiencia única: por ejemplo, desarrollar nuevos métodos estadísticos para analizar experimentos complejos y analizar los datos de la empresa a la luz de los resultados de las pruebas anteriores para identificar nuevas posibilidades de iniciativas de productos.
Preparando la organización
En las organizaciones que no han adoptado la experimentación, los equipos de productos suelen ser evaluados en función de si lanzan nuevos productos. Cuando comienzan a experimentar, con demasiada frecuencia el criterio pasa a ser el número de experimentos «exitosos» realizados. Por desgracia, eso hace que los empleados sean reacios al riesgo, por lo que hacen muy pocos experimentos. Ampliar la experimentación, por lo tanto, requiere cambiar los incentivos. Las empresas deben evaluar a los empleados basándose en el desempeño general de la unidad de negocio y de la organización, no en el resultado de las pruebas individuales.
Ese cambio animará a una gama mucho más amplia de empleados a generar y poner a prueba tantas ideas como sea posible, lo que aumentará sus posibilidades de descubrir avances que mejoren el rendimiento. Pero también se traducirá en probar ideas que podrían ser de mayor riesgo con menos supervisión por parte de científicos de datos experimentados, algo que puede hacer que la gente dude en realizar experimentos. Como hemos mencionado, una solución es incluir barandillas (criterios cuantitativos que actúan como cables desencadenantes) en la plataforma. Otra es lanzar nuevas funciones o cambios de fase, una práctica común entre las mayores firmas de tecnología. Por ejemplo, las actualizaciones de las aplicaciones móviles de la App Store de Apple y Google Play se publican de esa manera para reducir el riesgo.
Innovación impulsada por hipótesis
A medida que las organizaciones adopten y amplíen la experimentación en toda la empresa y pasen a un modelo de incentivos que recompense el impacto empresarial general, los líderes de producto deberían poder extraer mucho más valor centrándose en entender la por qué detrás de los resultados de las pruebas. Eso exige que los gerentes utilicen la experimentación para algo más que para tomar decisiones basadas en los datos (por ejemplo, si un cambio en particular es mejor que el status quo) haciendo hipótesis por qué eso es así. El experimento les permite poner a prueba la teoría; al considerar métricas adicionales, pueden entender el mecanismo que impulsó el resultado. Fundamentalmente, centrarse en por qué Fomenta una mayor innovación centrada en los clientes, porque los comentarios (recopilados a través de experimentos) se consultan no solo para elegir entre la variante y el status quo, sino también para determinar el siguiente experimento y la orientación general del producto.
El experimento de los 10 mejores de Netflix, por ejemplo, comenzó con una hipótesis clara: la fila de los 10 mejores ayudaría a los miembros a encontrar contenido para ver al aprovechar un deseo innato de compartir experiencias y conversaciones. Eso aumentaría la alegría y la satisfacción de los miembros, medidos por el aumento de la participación de los miembros. Además de hacer un seguimiento de la participación general, el experimento analizó métricas como el lugar en el que los miembros encontraban el contenido (Búsqueda, Mi lista, varias filas de la página de inicio) y la forma en que interactuaban con los títulos que aparecían en la fila de los 10 mejores. (Esos títulos también estaban disponibles en la experiencia del status quo, pero en otro lugar). Las métricas adicionales demostraron cómo los miembros cambiaron su comportamiento en respuesta a la nueva fila. Por ejemplo, dado que el objetivo de Netflix es conectar a los miembros con el mejor contenido para ellos directamente desde la página de inicio, un mayor uso de la Búsqueda en respuesta a la fila de los 10 principales indicaría que la página de inicio no ha cumplido ese objetivo. Esa información se utilizaría para diseñar una prueba posterior.
Sin embargo, una vez que una organización lleva a cabo cientos o miles de experimentos al año, se hace imposible revisar cada uno de ellos en memorandos y reuniones dedicados. Por lo tanto, las organizaciones deberían pasar de analizar experimentos individuales a analizar, debatir y aprender de grupos de experimentos relacionados, como los relacionados con la función de búsqueda o las páginas de detalles del producto que proporcionan imágenes, especificaciones, reseñas y otro tipo de información. Nos referimos a esos esfuerzos como programas de experimentación. Este cambio es la clave para obtener un importante valor adicional de la experimentación. Si los experimentos se consideran de esta manera, una organización puede adoptar prácticas de innovación más eficientes e impulsadas por hipótesis que se basen en las pruebas anteriores para informar las futuras. Los programas de experimentación también ayudan a los equipos de productos a dividir ideas complejas en hipótesis pequeñas y comprobables, lo que facilita la adaptación de la dirección del producto a las demandas de los clientes.
Programas de experimentación
Una vez que una organización es competente para aprender a través de los experimentos, el siguiente paso es comparar los resultados entre los programas de experimentación, lo que permite evaluar el rendimiento relativo de las distintas áreas de productos e identificar las posibles oportunidades de inversión. Piense en una plataforma de comercio electrónico que tenga varias funciones diseñadas para ayudar a los compradores a encontrar el producto correcto, dos de las cuales son la función de búsqueda y la página de detalles del producto. Lo más probable es que la empresa tenga un programa de experimentación para las búsquedas y otro para las páginas de productos.
Jamie Chung/Trunk Archive
Supongamos ahora que los cambios en el algoritmo de clasificación utilizado en un motor de búsqueda generaran devoluciones positivas pero decrecientes, según el efecto en las ventas en experimentos sucesivos. Mientras tanto, todas las pruebas de la página de detalles del producto, excepto una mostraron consistentemente pequeños efectos negativos en las ventas, y esa excepción produjo grandes efectos positivos. Una gran «victoria» para la página de detalles del producto, entre una serie de pruebas infructuosas, sugiere que la empresa aún no entiende qué aspectos de la descripción del producto repercuten más en los clientes. Deberían dedicarse más recursos a ese programa de experimentación. Mientras tanto, la disminución de la rentabilidad de los experimentos de clasificación de búsquedas sugiere un algoritmo de motor de búsqueda maduro; los líderes deberían considerar la posibilidad de explorar enfoques muy diferentes (como un chatbot de IA) o de transferir los recursos a otras áreas de experimentación, como las páginas de detalles de los productos.
Un depósito de conocimientos
Aprender a través de experimentos a gran escala requiere crear un repositorio de conocimientos, un sistema diseñado para almacenar, clasificar y organizar los resultados de los experimentos (incluidos los efectos en las ventas y otros indicadores clave, hipótesis sobre el impacto en los clientes, etc.) y hacer que la información que contiene sea accesible para los científicos de datos, los directores de producto y los líderes. Un repositorio permite a la organización no solo hacer un seguimiento del estado de cualquier programa de experimentación, sino también difundir el aprendizaje en toda la empresa, lo que es crucial para la innovación basada en hipótesis cuando una empresa realiza un enorme número de experimentos cada año.
Un repositorio de conocimientos debe cumplir cuatro funciones clave: (1) Debe permitir agrupar los experimentos en programas. Lo más probable es que muchas organizaciones las agrupen por función (como el motor de búsqueda o los detalles del producto) o unidad de negocio (como marketing o atención al cliente). (2) Deberían almacenar y hacer un seguimiento de los KPI (cantidad vendida, ingresos, conversiones, etc.) que son importantes en la empresa. Eso permitirá comparar el impacto de varios experimentos y programas de experimentación en términos comunes. Por ejemplo, la mayoría de los experimentos de Netflix están diseñados para mejorar uno de los pocos KPI, como la participación. (3) Debería alojar todos los documentos relacionados con cada prueba y asignarlos al programa de experimentación para garantizar que todos los aprendizajes están disponibles de forma centralizada. (4) Lo que es más importante, debería permitir a todos los empleados extraer información fácilmente. Los paneles que registran el rendimiento de los programas de experimentación (como el número de experimentos realizados, el número de cambios de funciones realizados en toda la base de usuarios y el impacto acumulado de los experimentos en los usuarios durante el trimestre anterior) son un buen punto de partida. Sin embargo, un punto de acceso más dinámico es un «asistente» impulsado por una IA generativa que puede responder a preguntas complejas sobre experimentos anteriores.
. . .
Las principales organizaciones tecnológicas utilizan la experimentación para innovar y mejorar el rendimiento rápidamente poniendo a prueba todas las ideas, no solo las que se examinan cuidadosamente o solo las más importantes. Además, lo que se aprende de esos experimentos (a menudo se obtiene al combinar los resultados de experimentos similares) genera nuevas ideas para las pruebas. La experimentación solo puede ampliarse democratizando el acceso a las herramientas, alineando los incentivos con las mejoras en los resultados a largo plazo y permitiendo a los empleados ver, comparar y sintetizar fácilmente los resultados de los experimentos dentro y entre los programas de experimentación. Gracias a las modernas herramientas de datos y a los avances de la IA, convertirse en expertos en experimentación está ahora al alcance de muchas más organizaciones. Dado que los mismos avances de la IA reducen el coste de crear, probar y crear variantes de productos innovadoras, los líderes deben convertir lo que es posible en una realidad en sus organizaciones.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.