PathMBA Vault

Business and society

Cómo la IA generativa está cambiando el trabajo creativo

por Thomas H. Davenport, Nitin Mittal

Cómo la IA generativa está cambiando el trabajo creativo

Los grandes modelos de IA del lenguaje y la imagen, a veces denominados IA generativa o modelos básicos, han creado una nueva serie de oportunidades para las empresas y los profesionales que se dedican a la creación de contenido_. Algunas de estas oportunidades incluyen:_

  1. Generación automática de contenido: se pueden utilizar grandes modelos de IA de lenguaje e imagen para generar automáticamente contenido, como artículos, entradas de blog o publicaciones en redes sociales. Puede ser una valiosa herramienta que ahorre tiempo para las empresas y los profesionales que crean contenido de forma regular.
  2. Mejora de la calidad del contenido: el contenido generado por la IA puede ser de mayor calidad que el contenido creado por humanos, ya que los modelos de IA son capaces de aprender de una gran cantidad de datos e identificar patrones que los humanos quizás no puedan ver. Esto puede resultar en un contenido más preciso e informativo.
  3. Mayor variedad de contenido: los modelos de IA pueden generar diversos tipos de contenido, incluidos texto, imágenes y vídeo. Esto puede ayudar a las empresas y a los profesionales a crear un contenido más diverso e interesante que atraiga a una gama más amplia de personas.
  4. Contenido personalizado: los modelos de IA pueden generar contenido personalizado en función de las preferencias de los usuarios individuales. Esto puede ayudar a las empresas y a los profesionales a crear contenido que tenga más probabilidades de interesar a su público objetivo y, por lo tanto, de que se lea o comparta.

¿Qué tan experta es esta tecnología para imitar los esfuerzos humanos en el trabajo creativo? Bueno, por ejemplo, el texto en cursiva de arriba lo escribió GPT-3, un «modelo lingüístico grande» (LLM) creado por OpenAI, en respuesta a la primera frase que escribimos. El texto del GPT-3 refleja los puntos fuertes y débiles de la mayoría del contenido generado por la IA. En primer lugar, es sensible a las indicaciones que se le dan; probamos varias indicaciones alternativas antes de decidirnos por esa frase. En segundo lugar, el sistema escribe bastante bien, no hay errores gramaticales y la elección de palabras es adecuada. En tercer lugar, sería beneficioso editarlo; normalmente no empezábamos un artículo como este con una lista numerada, por ejemplo. Finalmente, se nos ocurrieron ideas que no se nos ocurrieron. El último punto sobre el contenido personalizado, por ejemplo, no es uno que hayamos considerado.

En general, es un buen ejemplo del valor potencial de estos modelos de IA para las empresas. Amenazan con cambiar el mundo de la creación de contenido, con un impacto sustancial en el marketing, el software, el diseño, el entretenimiento y las comunicaciones interpersonales. Esta no es la «inteligencia general artificial» con la que los humanos han soñado y temido durante mucho tiempo, pero puede que lo parezcan los observadores ocasionales.

¿Qué es la IA generativa?

La IA generativa ya puede hacer mucho. Es capaz de producir texto e imágenes, que abarcan entradas de blog, códigos de programas, poesía y obras de arte (e incluso ganar concursos, de manera controvertida). El software utiliza modelos complejos de aprendizaje automático para predecir la siguiente palabra basándose en las secuencias de palabras anteriores, o la siguiente imagen basándose en las palabras que describen las imágenes anteriores. Los LLM comenzaron en Google Brain en 2017, donde se utilizaban inicialmente para traducir palabras sin perder el contexto. Desde entonces, han proliferado grandes modelos lingüísticos y de conversión de texto a imagen en las principales firmas de tecnología, como Google (BERT y LaMDA), Facebook (OPT-175B, BlenderBot) y OpenAI, una organización sin fines de lucro en la que Microsoft es el principal inversor (GPT-3 para el texto, DALL-E2 para las imágenes y Whisper para la voz). Las comunidades en línea como Midjourney (que ayudó a ganar el concurso de arte) y los proveedores de código abierto como HuggingFace también han creado modelos generativos.

Estos modelos se han limitado en gran medida a las principales empresas de tecnología porque su formación requiere enormes cantidades de datos y potencia de cálculo. El GPT-3, por ejemplo, se entrenó inicialmente con 45 terabytes de datos y emplea 175 000 millones de parámetros o coeficientes para hacer sus predicciones; una sola sesión de entrenamiento para el GPT-3 costó 12 millones de dólares. El Wu Dao 2.0, un modelo chino, tiene 1,75 billones de parámetros. La mayoría de las empresas no tienen las capacidades de centro de datos ni los presupuestos de computación en nube para entrenar sus propios modelos de este tipo desde cero.

Pero una vez que se entrena un modelo generativo, se puede «ajustar» para un dominio de contenido en particular con muchos menos datos. Esto ha llevado a modelos especializados de BERT, para contenido biomédico ( BioBert), contenido legal ( Legal-Bert) y texto en francés ( Camembert) — y el GPT-3 para una amplia variedad de propósitos específicos. La de NVIDIA BioMemo es un marco para el entrenamiento, la creación y el despliegue de grandes modelos lingüísticos a escala de supercomputación para la química generativa, la proteómica y el ADN/ARN. OpenAI ha descubierto que tan solo 100 ejemplos específicos de datos de dominio específico pueden mejorar sustancialmente la precisión y la relevancia de los resultados del GPT-3.

Para utilizar la IA generativa de forma eficaz, todavía necesita la participación humana tanto al principio como al final del proceso.

Para empezar, un humano debe introducir un prompt en un modelo generativo para que cree contenido. En términos generales, las indicaciones creativas producen resultados creativos. Es probable que «ingeniero rápido» se convierta en una profesión establecida, al menos hasta que surja la próxima generación de IA aún más inteligente. El campo ya ha llevado a un Libro de 82 páginas de las instrucciones de imagen del DALL-E 2 y un prompt marketplace en la que, por un módico precio, se pueden comprar las indicaciones de otros usuarios. La mayoría de los usuarios de estos sistemas tendrán que probar varias indicaciones diferentes antes de lograr el resultado deseado.

Luego, una vez que un modelo genere contenido, tendrá que ser evaluado y editado cuidadosamente por un humano. Las salidas de mensajes alternativas se pueden combinar en un solo documento. La generación de imágenes puede requerir una manipulación sustancial. Jason Allen, que ganó el concurso de «fotografía manipulada digitalmente» de Colorado con la ayuda de Midjourney, contó a un reportero que pasó más de 80 horas haciendo más de 900 versiones del arte y afinó sus indicaciones una y otra vez. Luego mejoró el resultado con Adobe Photoshop, aumentó la calidad y la nitidez de la imagen con otra herramienta de IA e imprimió tres piezas en lienzo.

Los modelos de IA generativa son increíblemente diversos. Pueden incluir contenido como imágenes, formatos de texto más largos, correos electrónicos, contenido de redes sociales, grabaciones de voz, códigos de programas y datos estructurados. Pueden publicar contenido nuevo, traducciones, respuestas a preguntas, análisis de opiniones, resúmenes e incluso vídeos. Estas máquinas de contenido universal tienen muchas aplicaciones potenciales en los negocios, varias de las cuales describimos a continuación.

Aplicaciones de marketing

Estos modelos generativos son potencialmente valiosos en varias funciones empresariales, pero las aplicaciones de marketing son quizás las más comunes. Jasper, por ejemplo, una versión del GPT-3 centrada en el marketing, puede producir blogs, publicaciones en redes sociales, textos web, correos electrónicos de ventas, anuncios y otros tipos de contenido dirigido al cliente. Sostiene que comprueba con frecuencia sus resultados con pruebas A/B y que su contenido está optimizado para su posicionamiento en los motores de búsqueda. Jasper también ajusta los modelos GPT-3 con las mejores salidas de sus clientes, lo que, según los ejecutivos de Jasper, ha llevado a mejoras sustanciales. La mayoría de los clientes de Jasper son particulares y pequeñas empresas, pero algunos grupos de empresas más grandes también utilizan sus capacidades. En la empresa de computación en nube VMware, por ejemplo, los escritores utilizan Jasper para generar contenido original con fines de marketing, desde correos electrónicos hasta campañas de productos y textos para redes sociales. Rosa Lear, directora de crecimiento impulsado por el producto, dijo que Jasper ayudó a la empresa a impulsar nuestra estrategia de contenido y que los guionistas ahora tienen tiempo de investigar, idear y planificar mejor.

Kris Ruby, propietario de una agencia de relaciones públicas y redes sociales Ruby Media Group , ahora utiliza la generación de texto e imágenes a partir de modelos generativos. Dice que son eficaces para maximizar la optimización de motores de búsqueda (SEO) y, en RRPP. para hacer propuestas personalizadas a los escritores. Cree que estas nuevas herramientas abren una nueva frontera en los desafíos de los derechos de autor y ayudan a crear políticas de IA para sus clientes. Cuando utiliza las herramientas, dice: «La IA es del 10%, yo soy del 90%», porque implica mucho pedir, editar e iterar. Cree que estas herramientas hacen que la escritura sea mejor y más completa para el descubrimiento en los motores de búsqueda, y que las herramientas de generación de imágenes pueden reemplazar el mercado de las fotografías de archivo y llevar a un renacimiento del trabajo creativo.

El DALL-E 2 y otras herramientas de generación de imágenes ya se utilizan en la publicidad. Heinz, por ejemplo, usó una imagen de una botella de ketchup con una etiqueta similar a la de Heinz para argumentar que «así es como se ve el ketchup para la IA». Por supuesto, solo significaba que la modelo estaba entrenada con un número relativamente grande de fotos de botellas de ketchup Heinz. Nestlé usó una versión mejorada con IA de un cuadro de Vermeer para ayudar a vender una de sus marcas de yogur. Stitch Fix, la empresa de ropa que ya utiliza la IA para recomendar ropa específica a los clientes, está experimentando con el DALL-E 2 para crear visualizaciones de la ropa según las preferencias de color, tela y estilo solicitadas por los clientes. Mattel utiliza la tecnología para generar imágenes para el diseño y el marketing de juguetes.

Aplicaciones de generación de código

El GPT-3, en particular, también ha demostrado ser un generador eficaz, si no perfecto, de códigos de programas de ordenador. Dada la descripción de un «fragmento» o función de programa pequeña, el programa Codex del GPT-3, diseñado específicamente para la generación de código, puede producir código en varios idiomas diferentes. El Github de Microsoft también tiene una versión del GPT-3 para la generación de código llamada CoPilot. Las versiones más recientes del Codex ahora pueden identificar errores y corregir errores en su propio código, e incluso explicar lo que hace el código, al menos una vez. El objetivo expresado de Microsoft no es eliminar a los programadores humanos, sino hacer que herramientas como el Codex o CoPilot «emparejen a los programadores» con los humanos para mejorar su velocidad y eficacia.

El consenso sobre la generación de código basada en LLM es que funciona bien para esos fragmentos, aunque su integración en un programa más grande y la integración del programa en un entorno técnico determinado siguen requiriendo capacidades de programación humana. Deloitte ha experimentado extensamente con el Codex durante los últimos meses y ha descubierto que aumenta la productividad de los desarrolladores experimentados y crea algunas funciones de programación para los que no tienen experiencia.

En un proyecto piloto de seis semanas en Deloitte con 55 desarrolladores durante 6 semanas, la mayoría de los usuarios valoraron la precisión del código resultante con un 65% o más, y la mayoría del código procedía del Codex. En general, el experimento de Deloitte encontró una mejora del 20% en la velocidad de desarrollo del código para los proyectos pertinentes. Deloitte también ha utilizado el Codex para traducir código de un idioma a otro. La conclusión de la empresa fue que seguiría necesitando desarrolladores profesionales en un futuro próximo, pero el aumento de la productividad podría necesitar menos desarrolladores. Al igual que con otros tipos de herramientas de IA generativa, descubrieron que cuanto mejor era el prompt, mejor era el código de salida.

Aplicaciones conversacionales

Los LLM se utilizan cada vez más en el centro de la IA conversacional o los chatbots. Potencialmente, ofrecen mayores niveles de comprensión de la conversación y conocimiento del contexto que las tecnologías conversacionales actuales. De Facebook BlenderBot, por ejemplo, que se diseñó para el diálogo, puede mantener largas conversaciones con los humanos manteniendo el contexto. De Google BERT se utiliza para entender las consultas de búsqueda y también es un componente del motor de chatbots DialogFlow de la empresa. LaMBA de Google, otro LLM, también se diseñó para el diálogo, y las conversaciones con él convencieron a uno de los ingenieros de la empresa de que era un ser sensible— una hazaña impresionante, dado que se trata simplemente de predecir las palabras utilizadas en una conversación basándose en conversaciones pasadas.

Ninguno de estos LLM es un conversador perfecto. Están entrenados en contenido humano del pasado y tienden a replicar cualquier lenguaje racista, sexista o sesgado al que hayan estado expuestos durante el entrenamiento. Aunque las empresas que crearon estos sistemas están trabajando para filtrar la incitación al odio, aún no han tenido todo éxito.

Aplicaciones de gestión del conocimiento

Una aplicación emergente de los LLM es emplearlos como medio de gestionar el conocimiento basado en texto (o posiblemente basado en imágenes o vídeos) dentro de una organización. La intensidad de mano de obra que implica la creación de bases de conocimiento estructuradas ha dificultado la gestión del conocimiento a gran escala para muchas grandes empresas. Sin embargo, algunas investigaciones ha sugerido que los LLM pueden ser eficaces para gestionar los conocimientos de una organización cuando la formación modelo se ajusta con precisión a un conjunto específico de conocimientos basados en textos dentro de la organización. Se puede acceder a los conocimientos de un LLM haciendo preguntas como indicaciones.

Algunas empresas están estudiando la idea de una gestión del conocimiento basada en un LLM en colaboración con los principales proveedores de LLM comerciales. Morgan Stanley, por ejemplo, está trabajando con el GPT-3 de OpenAI para ajustar la formación sobre el contenido de la gestión patrimonial, de modo que los asesores financieros puedan buscar los conocimientos existentes en la empresa y crear fácilmente contenido personalizado para los clientes. Parece probable que los usuarios de estos sistemas necesiten formación o ayuda para crear indicaciones eficaces, y que los conocimientos de los LLM sigan necesitando editarse o revisarse antes de solicitarlos. Sin embargo, suponiendo que se aborden esas cuestiones, los LLM podrían reavivar el campo de la gestión del conocimiento y permitir que escale de manera mucho más eficaz.

Deepfakes y otros problemas legales y éticos

Ya hemos visto que estos sistemas de IA generativa conducen rápidamente a una serie de problemas legales y éticos. Los «Deepfakes», o imágenes y vídeos creados por la IA y que pretenden ser realistas pero no lo son, ya han surgido en los medios de comunicación, el entretenimiento y la política. Sin embargo, hasta ahora, la creación de deepfakes requería una cantidad considerable de conocimientos informáticos. Sin embargo, ahora casi cualquier persona podrá crearlos. OpenAI ha intentado controlar las imágenes falsas poniendo «marcas de agua» a cada imagen del DALL-E 2 con un símbolo distintivo. Sin embargo, es probable que se necesiten más controles en el futuro, sobre todo porque creación generativa de vídeos se convierte en popular.

La IA generativa también plantea numerosas preguntas sobre qué constituye el contenido original y patentado. Como el texto y las imágenes creados no son exactamente como ningún contenido anterior, los proveedores de estos sistemas sostienen que pertenecen a sus creadores de prontos. Pero se derivan claramente del texto y las imágenes anteriores utilizados para entrenar a las modelos. No hace falta decir que estas tecnologías proporcionarán un trabajo importante a los abogados de propiedad intelectual en los próximos años.

A partir de estos pocos ejemplos de aplicaciones empresariales, debe quedar claro que ahora solo estamos arañando la superficie de lo que la IA generativa puede hacer por las organizaciones y las personas que las integran. Puede que pronto sea una práctica habitual, por ejemplo, que esos sistemas creen la mayoría o la totalidad de nuestro contenido escrito o basado en imágenes, para proporcionar los primeros borradores de correos electrónicos, cartas, artículos, programas de ordenador, informes, entradas de blog, presentaciones, vídeos, etc. No cabe duda de que el desarrollo de estas capacidades tendría implicaciones dramáticas e imprevistas para la propiedad del contenido y la protección de la propiedad intelectual, pero también es probable que revolucionen el conocimiento y el trabajo creativo. Suponiendo que estos modelos de IA sigan progresando como lo han hecho en el poco tiempo que han existido, no podemos imaginarnos todas las oportunidades e implicaciones que pueden generar.