PathMBA Vault

AI and machine learning

¿Es exagerado el impacto de GenAI en la productividad?

por Ben Waber, Nathanael J. Fast

¿Es exagerado el impacto de GenAI en la productividad?

Los grandes modelos lingüísticos (LLM) han sido anunciados como una bendición para la productividad colectiva. McKinsey proclamado audazmente que los LLM y otras formas de IA generativa podrían aumentar los beneficios corporativos en todo el mundo en 4,4 billones de dólares anuales, y Nielsen pregonó un aumento del 66% en la productividad de los empleados mediante el uso de estas mismas herramientas. Proyecciones como estas han hecho que encontrar formas de utilizar estas herramientas (y aumentar la productividad) sea una de las principales prioridades de muchas empresas durante el último año. Si bien esta nueva tecnología nos intriga e impresiona, recomendamos que experimente con cautela en lugar de que la adopte al por mayor en toda la empresa.

En medio de todo este bombo publicitario, hay motivos para preguntarse si estas herramientas tendrán los efectos transformadores en la productividad de toda la empresa que algunos predicen. Una de las razones para adoptar un enfoque más lento es que las evaluaciones de la productividad suelen centrarse en el nivel de las tareas (resumir un documento, completar una presentación de diapositivas o responder a la llamada de un cliente, por ejemplo) y en cómo individuos podría usar y beneficiarse de un LLM. Utilizar esos hallazgos para sacar conclusiones amplias sobre desempeño a nivel de empresa podría resultar caro.

Considere los recientes investigación sobre el impacto de la IA generativa en un entorno de centro de llamadas, donde una plataforma de aprendizaje automático con una interfaz de LLM se entrenaba con los datos del chat y los resultados. Los investigadores analizaron el tiempo medio de finalización del chat para medir la productividad y, de media, vieron una mejora del 14% en el tiempo de finalización del chat con la nueva herramienta.

Sin embargo, un análisis más detallado revela algunos signos preocupantes. Según el estudio del centro de llamadas al que hemos enlazado, el rendimiento de los mejores empleados disminuyó con este sistema, lo que presenta posibles problemas para la innovación, la motivación y la retención de los mejores empleados de la empresa. En otro estudiar, los investigadores descubrieron que el uso de la IA generativa aumentaba más la productividad para tareas que los modelos actuales cubrían bien, pero la productividad disminuía cuando se utilizaba esta tecnología en tareas en las que los LLM tenían una cobertura de datos deficiente o requerían un razonamiento que era poco probable que se representara en el texto en línea. Con el tiempo, las condiciones externas (por ejemplo, los valores culturales, las mejores prácticas conocidas) pueden cambiar materialmente y provocar que los beneficios desaparezcan o incluso conduzcan a una productividad significativa disminuye.

No se han examinado las consecuencias de la introducción de nuevos productos, incluida la posibilidad de rotación entre los expertos cuyos productos se utilizan para entrenar estos sistemas. Sostenemos que, a falta de un análisis más exhaustivo y a largo plazo, el análisis de los datos específicos de las tareas revela poco sobre el verdadero efecto de una nueva tecnología, como las LLM, en el rendimiento general de la empresa.

Por lo tanto, sugerimos que las organizaciones adopten un enfoque matizado y basado en los datos para adoptar las LLM. Los líderes deben considerar dónde ayuda realmente esta tecnología y resistirse al impulso de integrarla en todos los trabajos y tareas de la organización. Para ello, tienen que entender dos problemas principales de los LLM que son fundamentales para sus implicaciones empresariales a medio y largo plazo: 1) su capacidad persistente de producir falsedades convincentes y 2) los probables efectos negativos a largo plazo del uso de los LLM en los empleados y los procesos internos.

En cuanto a la primera, es importante tener en cuenta que los avances de los LLM en cuanto a fluidez sintáctica no se traducen en una mayor capacidad de buscar datos automáticamente, un problema al que la informática se ha enfrentado durante décadas con un progreso gradual. En cuanto al segundo, los efectos de los LLM en la productividad suelen limitarse al desempeño en una tarea autónoma en la que ya se ha formado un modelo, un hecho que puede distorsionar los incentivos para los mejores resultados e introducir riesgos sistémicos en los flujos de trabajo complejos. Cuando se combinan, estos problemas crean condiciones organizativas propicias para fracasos sistémicos y difíciles de identificar que pueden degradar fácilmente la eficacia organizacional si los casos de uso de la IA generativa no se controlan de forma continua y con un alcance limitado.

Fabricación plausible

Los LLM y el aprendizaje automático en general, por su naturaleza, predicen los patrones futuros en función de lo que funcionó (o, más exactamente, lo que de forma persistente) ocurrió) en el pasado. Una explicación completa de cómo funcionan los LLM va más allá del alcance de este artículo ( una buena explicación está aquí), pero a un nivel básico, estos modelos extremadamente grandes absorben enormes cantidades de texto (en este momento, casi todo el texto de la web) y crean un modelo estadístico de predicción de la siguiente palabra. Tras la formación inicial, la mayoría de las empresas pagan a los anotadores para que den su opinión sobre las indicaciones y así reducir la probabilidad de que se produzcan productos tóxicos.

Es importante destacar que este modelo no tiene ningún concepto de verdad o hecho (al fin y al cabo, se formó en Internet). Los LLM proporcionan respuestas que es estadísticamente probable que aparezcan en el texto público. En la medida en que sea más probable que haya aparecido la verdad en los datos de entrenamiento, es más probable que los LLM proporcionen datos fácticos. Un rápido vistazo a los artículos de noticias recientes ofrece amplios ejemplos de casos en los que estos modelos ofrecen con confianza falsedades descaradas. Mi ejemplo favorito (Ben) ahora mismo es preguntar a cualquiera de estos modelos qué países africanos comienzan con la letra «k». Y mi favorita (de Nate) es la tendencia de la herramienta de correo electrónico de Google Bard a fabricar correos electrónicos enteros que nunca se enviaron; totalmente coherente con el funcionamiento de los LLM, pero no tan útil como herramienta.

Por desgracia, este no es un problema que se pueda solucionar fácilmente. Los investigadores del aprendizaje automático llevan décadas trabajando para mapear las preguntas en bases de datos fácticas y, aunque los LLM ofrecen una interfaz mucho más coherente, el problema central de recuperar los datos basándose en el lenguaje natural sigue sin resolverse. La innovación fundamental de los LLM —crear un modelo lo suficientemente grande con datos suficientes como para aprender las propiedades estadísticas de la sintaxis— no tiene relación con la recuperación de los hechos.

La gente se engaña pensando que pueden hacer que los LLM les den solo resultados fácticos, pero simplemente no es así como funciona la tecnología. Introducir algo como «solo deme resultados donde pueda encontrar una fuente» no cambia el modelo de manera fundamental, solo significa que completará el texto con el aspecto que viene después cuando alguien pide una fuente. A veces eso funciona, en la medida en que un segmento determinado del texto aparece con frecuencia en los datos, y otras veces no. Una descripción humorística de los LLM que hemos encontrado es» mansplaining como servicio.» A veces está bien, a veces está mal, pero siempre suena autoritario.

Atrapado en el pasado

El hecho de que este idioma también aparezca en el pasado es una consideración importante si se tiene en cuenta en el contexto organizacional. Tomemos el ejemplo del centro de llamadas de antes. Si una empresa lanza un nuevo producto, no hay ningún registro de chat sobre ese producto en el que formarse. Incluso suponiendo que la salida fuera correcta en el pasado, podría estar completamente equivocada de ahora en adelante.

Se podría decir «está bien, tendremos que volver a capacitarnos», pero el reciclaje también plantea varios problemas. En primer lugar, se supone que la gente sabe lo suficiente sobre los cambios de rendimiento como para entender que hay un problema. El lanzamiento de un nuevo producto puede ser bastante fácil, pero ¿qué hay de un cambio en la estrategia de marketing? ¿Qué tal un cambio en la API que utiliza un programador en un LLM de finalización de código? Las empresas tendrán que implementar nuevos y amplios procesos para supervisar estos posibles conflictos de forma eficaz, probablemente con un coste elevado. Además, si bien los cambios en la velocidad de finalización de las tareas son fáciles de medir, los cambios en la precisión son menos detectables. Si un empleado completa un informe en cinco minutos en lugar de 10, pero es menos preciso que antes, ¿cómo lo sabremos y cuánto tiempo tardará en reconocer esta inexactitud?

En segundo lugar, los incentivos para que los mejores resultados contribuyan al reciclaje de estas herramientas han cambiado. Recuerde que reproducir el comportamiento de los mejores jugadores no ayuda a su desempeño; en el estudio anterior, lo obstaculizó. Si les pagan menos y a todos los demás se les paga más, será mucho menos probable que adopten el comportamiento exploratorio que mostraron anteriormente para encontrar soluciones innovadoras. También es más probable que abandonen la empresa, lo que perjudica el rendimiento del sistema en general.

Modelo Collapse

A medida que estos sistemas comiencen a entrenarse en función de sus propios resultados, las organizaciones que confían en ellos se enfrentarán al problemático problema de modelo colapsado. Si bien originalmente se formó en textos generados por humanos, los LLM que se capacitan en la producción de los LLM degradan rápidamente en calidad. Dado que los humanos tendrán que volver a entrenar continuamente estos sistemas en un entorno real y que el texto con el que se entrenan se generará, al menos en parte, a partir de los resultados anteriores del LLM, esto indica que los sistemas ofrecerán un valor bajo o incluso negativo en unos pocos ciclos de entrenamiento.

Este es solo uno de los obstáculos para la gente que afirma que estos modelos seguirán mejorando a un ritmo vertiginoso. Simplemente no hay otro texto digno de Internet con el que entrenar, y una de las principales innovaciones de los LLM fue la posibilidad de ingerir enormes cantidades de texto. Incluso si lo hubiera, ese texto ahora está contaminado por la producción de LLM, lo que degradaría la calidad del modelo. Ya hay algunas pruebas el rendimiento de ese modelo en el paradigma actual ha alcanzado su punto máximo.

Una perspectiva a largo plazo sobre los efectos del LLM

Para apreciar plenamente el problema de una producción poco fáctica, tiene que adoptar una visión a largo plazo. El «Abogado de ChatGPT» es particularmente instructivo. En este caso, un abogado usó ChatGPT para escribir un escrito legal. Cuando los detalles del escrito resultaron ser incorrectos, se creó un escándalo y una cascada de trabajo para el tribunal y los abogados.

Visto desde el punto de vista del desempeño de las tareas, el uso de ChatGPT en este caso fue un éxito. En lugar de tardar días en escribir un escrito legal, estos abogados vieron cómo su productividad individual se disparó al utilizar ChatGPT para escribir uno en cuestión de minutos. Desde el punto de vista del sistema, fue un fracaso colosal. Porque las salidas de ChatGPT parecer autoritario: ir tan lejos como para utilizar trucos psicológicos para fomentar la confianza, como responder con una «yo», incluso las personas que saben que deben comprobar el resultado tienen muchas menos probabilidades de hacerlo. El uso de ChatGPT aquí redujo drásticamente la productividad del sistema judicial en general.

Fue un caso en el que fue fácil señalar a ChatGPT como el culpable. Pero ahora imagine que las empresas utilizan las LLM para, por ejemplo, escribir un manual para empleados. Si bien los empleados deberían consultar detenidamente todo el manual, después de leer unas cuantas páginas de un texto coherente y autoritario, es probable que hojeen el resto. Si se introduce un error en el manual, puede que no aparezca durante años. Imagínese que un manual del empleado generado automáticamente omitiera detalles importantes sobre las sanciones por acoso sexual. Más adelante, si el acoso sexual ocurre en el lugar de trabajo y la empresa no puede despedir al agresor, será extremadamente difícil atribuirlo al uso de un LLM para el manual. Este tipo de riesgos no se pueden cuantificar adecuadamente a nivel de tarea ni a corto plazo. Se necesita una evaluación holística, organizativa y longitudinal.

Con prejuicio

Es fundamental abordar el papel de los LLM a la hora de reforzar y amplificar los sesgos, que ha sido validado en muchos estudia. Si bien nosotros diríamos que basta con argumentar que esto es éticamente incorrecto y que las organizaciones deben tener cuidado al utilizar estos sistemas, puede resultar útil centrarse también en los efectos económicos.

Los estudios han demostrado tan a menudo los beneficios de una fuerza laboral diversa e inclusiva que representan los gestores de activos ahora usa estas métricas para impulsar las decisiones de inversión y compensación de los ejecutivos. La tecnología, como los LLM, que borra los tipos de lenguaje que utilizan las comunidades marginadas o minimiza su contribución mediante un mal resumen podría hacer que estas comunidades no se sientan vistas o no sean bienvenidas. Para los hablantes nativos de idiomas que no tienen suficiente texto en línea para formar un LLM, los LLM tendrán menos datos de los que basarse para ofrecer traducciones precisas, lo que reforzará aún más su exclusión.

Dado que la IA generativa tiene una probabilidad desproporcionada de mostrar resultados que refuercen el status quo social, las empresas que utilizan más esta tecnología corren el riesgo de alejar a sus empleados marginados. Una mayor deserción por parte de esos grupos será costoso por derecho propio, además de limitar la generación de ideas.

Un negocio arriesgado

En conjunto, estos puntos indican grandes clases de trabajo en las que usar un LLM es arriesgado. Para los proyectos y flujos de trabajo en los que la verdad importa, cualquier afirmación de mejora de la productividad por parte de este tipo de tecnología conlleva una gran carga de la prueba, que debe abordar muchas de las cuestiones planteadas anteriormente (y probablemente más, como la coste medioambiental de la formación y el uso de estos modelos, riesgos de ciberseguridad, etc.) de manera longitudinal y holística. Los experimentos a nivel de tarea no son suficientes.

Cuando el trabajo implica resumir y sintetizar las pruebas, los LLM pueden resultar poco fiables. Para el desarrollo o la implementación de políticas y procesos, la resolución de disputas, la generación de informes y más, las pruebas existentes indican que los LLM pueden reducir el rendimiento general en lugar de respaldarlo. Las primeras investigaciones también indican que cuando se sepa que las herramientas de IA generativa se utilizan para la generación de contenido en la comunicación interpersonal, la confianza se puede reducir significativamente. Esto tiene profundas implicaciones para la capacidad de los equipos de mantener conversaciones difíciles, participar en una lluvia de ideas y llevar a cabo otros procesos de misión crítica.

Es importante tener en cuenta que hay otros importantes cuestiones éticas con este tipo de tecnología que no hemos abordado aquí. Estos números incluyen de todo, desde la expansión y osificación de los sesgos sociales a problemas de infracción de derechos de autor, como estos modelos tiende a memorizar en particular puntos de datos únicos. Estas cuestiones son importantes y su impacto en la permisibilidad legal de los LLM sí que crean riesgos adicionales, pero es mejor examinarlos en un tratamiento minucioso.

¿A dónde vamos desde aquí?

En este artículo hemos expresado nuestro escepticismo ante el bombo que rodea a los LLM, abogando por un enfoque más cauteloso. Hacer afirmaciones grandiosas sobre las LLM puede ayudar a la gente a vender software o libros a corto plazo, pero a largo plazo, la aplicación irreflexiva de estos modelos en toda la organización podría provocar importantes pérdidas de productividad. Sin embargo, estas pérdidas de productividad serán difíciles de medir y el peligro es que este lastre para el rendimiento, difícil de cuantificar, siga sin respuesta debido a la profunda integración de estas herramientas en flujos de trabajo inadecuados.

Esto no quiere decir que la tecnología no sea útil para ciertos tipos de trabajo, sino que los usuarios y los desarrolladores deben tener claro cuándo podemos utilizar las LLM de forma eficaz y segura. Cuando la gente escribe en un idioma extranjero, por ejemplo, utilizar un LLM para limpiar el texto existente y hacer que suene más natural y fácil de entender por los demás tiene el potencial de igualar las condiciones entre los hablantes nativos y no nativos. La IA también es prometedora para las tareas en las que es útil generar muchas ideas no basadas en hechos de forma rápida. Es fácil imaginar productos tecnológicos que se centren en estos casos de uso de una manera que facilite a las organizaciones la experimentación con aplicaciones específicas a pequeña escala. Los líderes deben estar atentos a los contextos en los que adoptar un LLM resulte útil, ni adoptar ni rechazar ciegamente la tecnología.

Para terminar, no todas las nuevas tecnologías laborales conducen a mejoras de la productividad a nivel empresarial, aunque el bombo en torno a la IA podría permitir a las empresas racionalizar la sustitución de los trabajadores bien pagados por trabajadores mal pagados, por lo tanto aumentar los beneficios a corto plazo, incluso a expensas de la productividad. Con la IA generativa, tenemos el potencial de evitar esta trampa, pero solo si la canalizamos, la probamos y la utilizamos de forma inteligente.