PathMBA Vault

Decision making and problem solving

Cómo utilizar la correlación para hacer predicciones

por Dean Karlan, Michael Luca

Cómo utilizar la correlación para hacer predicciones

Los líderes malinterpretan con demasiada frecuencia los patrones empíricos y pierden oportunidades de adoptar un pensamiento basado en los datos. Para aprovechar mejor los datos, los líderes deben entender los tipos de problemas que los datos pueden ayudar a resolver, así como la diferencia entre los problemas que se pueden resolver con una mejor predicción y los que se pueden resolver con una mejor comprensión de la causalidad.

Demasiados líderes adoptan un enfoque incompleto para entender los patrones empíricos, lo que lleva a errores e interpretaciones erróneas costosos. Como ya hemos comentado antes, un error muy común es interpretar una correlación engañosa como causal. Hemos asesorado a innumerables organizaciones sobre el tema. Hemos escrito artículos de investigación, artículos gerenciales e incluso un libro dedicado a la el poder de los experimentos y herramientas de inferencia causal: un conjunto de herramientas que los economistas han adoptado y adaptado en las últimas décadas. Sin embargo, si bien creemos profundamente en el conjunto de herramientas de inferencia causal, también hemos visto el problema inverso: los líderes que pasan por alto los patrones útiles porque no son causales. La verdad es que también hay veces en las que una correlación no solo es suficiente, sino que exactamente lo que se necesita. El error que cometen los líderes aquí es no entender la distinción entre predicción y causalidad. O, más específicamente, la distinción entre predecir un resultado y predecir cómo afectará una decisión a un resultado.

Pensemos en un gerente que tiene dificultades con la siguiente pregunta: ¿Debo subvencionar los títulos universitarios de mis empleados? Podría empezar por examinar la relación entre los títulos universitarios y la productividad. Sin embargo, aunque vea una asociación positiva entre los títulos universitarios y la productividad, es difícil saber —sin un análisis más profundo— si esta relación es causal. Después de todo, es probable que haya otras diferencias subyacentes entre las personas con y sin títulos. Y ofrecer subsidios de educación a los empleados sin título no los hará idénticos a los demás empleados que ya tienen un título. Necesitaría un experimento, o un experimento natural, para entender mejor si esta relación es causal.

Ahora, supongamos que el mismo director se enfrentaba a una pregunta ligeramente diferente: ¿Debería contratar a más graduados universitarios? Podría volver a analizar la correlación entre los títulos universitarios y la productividad para considerar si contrataría a trabajadores más productivos modificando la contratación para dar más peso a un título. En este caso, la correlación es útil, ya que ayuda a predecir quién será productivo, aunque no diga nada sobre si la titulación está provocando la productividad.

Existe una diferencia sutil pero fundamental entre estas dos preguntas. «¿Debo contratar a más graduados universitarios?» es un problema de predicción. «¿Debo subvencionar los títulos universitarios de mis empleados?» es un inferencia causal problema. En la primera, está intentando evaluar si los títulos universitarios son predictivo de productividad. En otras palabras, ¿el tipo de personas que obtienen títulos universitarios son buenos empleados? En esta última, está intentando determinar si los títulos universitarios causa mayor productividad.

Esta distinción es fundamental para los responsables de la toma de decisiones: cuando se piensa en contratar empleados con un título universitario, el director necesita herramientas predictivas, que pueden ir desde correlaciones básicas hasta algoritmos de aprendizaje automático más avanzados. Puede que no necesite saber si los títulos tienen un efecto causal (o si, en cambio, el tipo de personas que obtienen títulos universitarios también resultan ser empleados productivos). Sin embargo, cuando esté pensando en subvencionar los títulos universitarios de sus empleados, su pregunta principal debería ser entender si es la propia educación universitaria la que provoca un aumento de la productividad. Para determinar con éxito si los títulos ayudarán a mejorar el desempeño actual de los empleados, necesita las herramientas de inferencia causal, como experimentos o experimentos naturales, que se centren en entender el impacto causal de realizar un cambio.

Aquí ofrecemos ejemplos de problemas comunes de inferencia causal y predicción. Hacemos las distinciones clave entre los dos tipos de problemas y señalamos las diferentes herramientas que los líderes necesitan para enfrentarse a cada uno de ellos.

Problemas comunes de inferencia causal

Los directivos suelen tomar decisiones que implican pensar en el impacto causal de las diferentes opciones. ¿La contratación de consultores mejorará la productividad de nuestra empresa? ¿Los salarios más altos reducirán la rotación? ¿La publicidad en las redes sociales atraerá nuevos clientes?

Todas estas preguntas se han respondido con los métodos de inferencia causal de las ciencias sociales. Por ejemplo, las economistas Emma Harrington y Natalia Emanuel, junto con una gran empresa de tecnología, examinó los salarios en los centros de llamadas y almacenes de la empresa. En 2019, la empresa aumentó los salarios de los trabajadores del almacén de 16 dólares la hora a 18 dólares la hora. Al analizar el momento del aumento salarial, los investigadores pudieron ver el efecto del aumento de los salarios en la productividad mediante un enfoque de diferencia en las diferencias. Descubrieron que los aumentos no solo aumentaban la productividad, sino que un aumento de 1 dólar reducía las probabilidades de que un empleado dejara de fumar en un 19%. Resulta que era rentable aumentar los salarios, ya que las subidas salariales se amortizaron con creces debido al aumento de la productividad y la disminución de la rotación.

Como segundo ejemplo, considere un análisis reciente de Brett Gordon, Florian Zettelmeyer, Neha Bhargava y Dan Chapsky, que analiza las campañas de publicidad publicadas en Facebook. Al analizar 15 campañas de publicidad con sede en EE. UU. que representan aproximadamente 1600 millones de impresiones publicitarias, los investigadores comparan las estimaciones del impacto de la publicidad en Facebook de los experimentos con las estimaciones de las correlaciones no experimentales. El equipo descubrió que las correlaciones no experimentales entre los anuncios y las intenciones de compra eran engañosas, ya que los anuncios están segmentados y suelen mostrarse a usuarios que ya están dispuestos a comprar un producto. Por ejemplo, los anuncios de detergentes para ropa se mostrarán a las personas que ya estén inclinadas a comprar detergente para ropa incluso sin el anuncio. A continuación, los autores investigaron diferentes enfoques no experimentales para controlar las características de los usuarios y descubrieron que la correlación seguía siendo engañosa a pesar de los controles. Los controles estadísticos aún más avanzados no eliminaron el problema del «sesgo de selección». Esto se debe a que el sesgo de selección es especialmente grave en el contexto de la publicidad en línea, donde los anuncios están muy segmentados y donde los efectos tienden a ser pequeños por impresión, lo que significa que incluso pequeños sesgos pueden llevar a estimaciones muy engañosas en general. En ese contexto, los experimentos pueden ser una forma poderosa de superar el sesgo de selección e identificar el impacto causal de los anuncios.

Un tercer ejemplo proviene del mundo de los productos financieros, donde uno de nosotros (Dean), con sus colegas Jeremy Burke, Julian Jamison, Kata Mihaly y Jonathan Zinman, hicimos un estudio en una cooperativa de ahorro y crédito de San Luis. Analizó un popular producto crediticio «generador de crédito» diseñado para ayudar a quienes querían establecer un historial crediticio a hacerlo. De hecho, si se limitara a buscar una correlación, descubriría que las personas que utilizaron el producto diseñado para crear calificaciones crediticias sí que lo hicieron: ¡éxito! Pero como la cooperativa de ahorro y crédito había aleatorizado las ofertas, descubrieron que muchas personas similares a los clientes de éxito a los que no se les había ofrecido ese producto también obtuvieron buenas puntuaciones crediticias por sí mismas. Una vez más, tenemos el problema de la correlación entre los títulos universitarios: las personas que son del tipo de personas que lo quieren, tienden a ser del tipo que tiene éxito. No fue el producto lo que lo hizo, pero la correlación podría hacerle pensar que sí.

Estos son solo tres de los muchos ejemplos de cómo el kit de herramientas de inferencia causal puede responder a preguntas críticas en áreas que van desde las operaciones hasta la estrategia y el marketing.

Problemas de predicción comunes

Si sus empleados o clientes son un grupo que se autoselecciona, ¿significa que no tiene suerte? No, descubrir un producto para mejorar el crédito parecía no llevar a ningún aumento de las puntuaciones, podría interpretarse como un fallo del producto, pero no es una falta de información. Recuerde que la decisión de un usuario de usar el producto resultó ser bastante predictiva de si su puntuación mejoraría. Si usted es el banco, esa es información que puede utilizar. Por ejemplo, puede que quiera utilizar información similar para evaluar los riesgos crediticios. Los bancos podrían estar más dispuestos a conceder crédito a las personas con puntuaciones crediticias bajas que opten por utilizar un producto de mejora crediticia que a las personas que no lo utilizan. La razón es simple: el uso del producto predice el comportamiento futuro, a pesar de que es no causando el comportamiento.

Los directivos de todos los sectores se enfrentan habitualmente a decisiones que implican hacer predicciones.

El aprendizaje automático y la inteligencia artificial son extremadamente valiosos en estos contextos. Nuestra propia investigación ha documentado el potencial de los algoritmos para conducir a procesos de contratación y ascensos más eficientes en áreas que van desde profesores hasta oficiales de policía. Trabajos recientes han explorado más a fondo estas ideas y han descubierto que los algoritmos tienen el potencial de aumentar tanto la eficiencia como la equidad en la contratación. Por ejemplo, pensemos en un artículo reciente de los economistas Danielle Li, Lindsey Raymond y Peter Bergman, en el que se examina el valor de utilizar un algoritmo para filtrar los currículums, con datos en aproximadamente 90 000 solicitudes de empleo en una empresa de la lista Fortune 500 entre 2016 y 2019. Al comparar varios algoritmos con los responsables humanos de la toma de decisiones, los investigadores descubrieron que los algoritmos ayudaban a identificar mejores candidatos en la selección que las personas, lo que aumentaba la probabilidad de que los candidatos fueran contratados. Además, cuando se diseñaban cuidadosamente, los algoritmos permitían obtener candidatos de mayor calidad y candidatos con mayor diversidad demográfica. Pero, para lograrlo, la organización tenía que darse cuenta de que hay un elemento de predicción en la contratación y tener claro cuáles son sus objetivos de contratación.

Como tercer ejemplo, supongamos que ve una correlación entre las cocinas más populares de un año determinado en Boston y las más populares del año anterior en Nueva York. Incluso si la relación no es causal, la correlación es valiosa. Por ejemplo, puede resultar útil para los restaurantes que quieren innovar en sus menús. Uno de nosotros (Mike) ha visto surgir este tipo de preguntas en su trabajo con Yelp, donde es posible analizar conjuntos de datos a gran escala para responder a este tipo de preguntas. Este trabajo ha ayudado a encontrar formas en las que los datos de las empresas de tecnología pueden arrojar luz sobre la evolución de la actividad económica. Por ejemplo, los datos de Yelp pueden ayudar a comprender las formas en que gentrificación afecta diferentes tipos de negocios. También puede ayudar a predecir cambios en la actividad económica. En términos más generales, los datos de las empresas de tecnología han sido una nueva e importante fuente de información, y ahora se utilizan ampliamente tanto para problemas de inferencia causal como de predicción.

Elegir la maquinaria adecuada

«Nos ahogamos en la información, pero estamos hambrientos de sabiduría». Esta cita, del biólogo E.O. Wilson, captura la esencia del ecosistema empresarial moderno. El mundo está repleto de datos. Y los avances en el análisis de datos de las últimas décadas tienen el potencial de mejorar las decisiones gerenciales en prácticamente todos los sectores y en una amplia gama de problemas. Una gran cantidad de literatura económica y estadística ha explorado las formas en que la inteligencia artificial ha reducido el coste de hacer predicciones, en entornos que van desde la contratación hasta la inversión y los coches sin conductor. Paralelamente, el desarrollo de herramientas de inferencia causal ha sido reconocido en los premios Nobel de Economía de 2019 y 2021. Ambas son importantes para las decisiones empresariales.

Sin embargo, los líderes malinterpretan con demasiada frecuencia los patrones empíricos y pierden oportunidades de adoptar un pensamiento basado en los datos. Para aprovechar mejor los datos, los líderes deben entender los tipos de problemas que los datos pueden ayudar a resolver, así como la diferencia entre los problemas que se pueden resolver con una mejor predicción y los que se pueden resolver con una mejor comprensión de la causalidad.