PathMBA Vault

AI and machine learning

Los riesgos de las tonterías

por Ian P. McCarthy, Timothy R. Hannigan, André Spicer

Los riesgos de las tonterías

Justo después de que OpenAI lanzara su chatbot GenAI ChatGPT al público en noviembre de 2022, Google lanzó su propio chatbot llamado Bard (ahora Gemini). Durante la primera manifestación pública de Bard, generó un importante error fáctico en respuesta a una pregunta sobre los descubrimientos realizados por el telescopio espacial James Webb. Esta respuesta incorrecta del chatbot llevó a un Caída del 9% en el precio de las acciones de Alphabet, la compañía madre de Google: en ese momento, 100 000 millones de dólares en valor de mercado.

Los incidentes que demuestran los riesgos de los chatbots también se producen en diferentes profesiones. En 2023, [multaron a dos abogados](https://www.reuters.com/legal/new-york-lawyers-sanctioned-using-fake-chatgpt-cases-legal-brief-2023-06-22/#:~:text=New%2520York%2520lawyers%2520sanctioned%2520for%2520using%2520fake%2520ChatGPT%2520cases%2520in%2520legal%2520brief,-By%2520Sara%2520Merken&text=NEW%2520YORK%252C%2520June%252022%2520(Reuters,an%2520artificial%2520intelligence%2520chatbot%252C%2520ChatGPT.) por el Tribunal Federal de Distrito de Nueva York por presentar informes legales con casos ficticios y citaciones legales generadas por el chatbot ChatGPT. Y en el periodismo, varias publicaciones conocidas se han sentido avergonzadas por utilizar el contenido generado por los chatbots. Por ejemplo, Sports Illustrated publicó varios artículos publicados por autores con nombres falsos con fotos a la cabeza generadas por la IA.

En ambos casos, los profesionales y las empresas utilizaron el contenido de los chatbots de manera acrítica y son solo la punta del iceberg. En la prisa por lanzar al público los chatbots de modelos lingüísticos grandes (LLM), ha habido numerosos problemas con estas herramientas que generan falsedades y desinformación. Como resultado, los gerentes y las organizaciones están empezando a ver una gama cada vez mayor de nuevos riesgos según las expectativas y los estándares profesionales en torno a la precisión de la información.

En este artículo analizamos la naturaleza de estos riesgos y ofrecemos una orientación informada basado en nuestra investigación para saber cómo gestionarlos.

Nuevas herramientas, nuevos riesgos

En medio de la promesa y el entusiasmo genuinos por las posibles aplicaciones de los chatbots está lo que llamamos los «riesgos epistémicos de las tonterías». La tontería, en nuestra definición, es el contenido inventado, inexacto y falso de los chatbots que los humanos utilizan de forma acrítica para sus tareas.

No gestionar eficazmente los riesgos de tonterías podría tener grandes consecuencias para los profesionales y líderes individuales, así como para sus organizaciones. Algunos de estos riesgos incluyen el daño a la reputación, las decisiones incorrectas, la responsabilidad legal, las pérdidas económicas e incluso la seguridad humana.

Un lugar en el que esto se puede ver es en el sector de la salud. Cuando es fiable, introducir un chatbot en los contextos médicos orientados al consumidor, como las farmacias. Los chatbots podrían estar disponibles las 24 horas del día, los 7 días de la semana para responder de forma inmediata a las preguntas sobre los medicamentos y los servicios de farmacia de manera eficiente. Sin embargo, investigadores presentándose en la reunión anual de 2023 de la Sociedad Estadounidense de Farmacéuticos de Sistemas de Salud descubrió que actualmente alrededor de las tres cuartas partes de las respuestas generadas por ChatGPT sobre preguntas relacionadas con los medicamentos eran inexactas o incompletas. Peor aún, cuando los investigadores pidieron a la herramienta referencias para respaldar las respuestas, generó citas falsas como un tipo de alucinación. Si un médico siguiera ciegamente (o subcontratara sus funciones) las sugerencias de ChatGPT, pondría en peligro la vida de sus pacientes. Un reciente revisión sistemática realizado en una investigación sobre ChatGPT en el cuidado de la salud descubrió que la herramienta había sido estudiada como útil tanto para las tareas orientadas a las aplicaciones (es decir, el flujo de trabajo clínico) como para las orientadas al usuario, pero sus limitaciones se encontraron en proporcionar información potencialmente engañosa y peligrosa y en transmitirla en un tono persuasivo.

Este hipotético peligro se hizo realidad en una startup llamada Babylon Health, que desarrolló una aplicación impulsada por la IA llamada GP en mano . La aplicación prometía hacer que el proceso de clasificación de la atención médica fuera más eficiente y mucho más barato. Los pacientes escribían sus síntomas y la aplicación les daba consejos sobre el tipo de profesional de la salud que necesitaban ver (si es que lo hacían). Tras el lanzamiento de la aplicación, varios médicos del Reino Unido descubrieron que la aplicación daba consejos incorrectos. Por ejemplo, Newsnight de la BBC publicó un artículo con un médico que demostraba cómo la aplicación sugería dos afecciones que no requerían tratamiento de emergencia, cuando en realidad los síntomas podrían haber sido indicadores de un ataque al corazón. El consejo correcto habría sido ir inmediatamente a un servicio de urgencias. Cuando quedó claro que las promesas de la aplicación estaban sobrevaloradas e incluso peligrosas, perdió su brillo y la empresa detrás de esto finalmente cerró.

Gestionar el riesgo de tonterías

A pesar de casos como GP at Hand, es poco probable que el uso de los chatbots en las organizaciones y entornos profesionales desaparezca. Por el contrario, creemos que la tecnología de IA generativa presenta nuevas oportunidades, siempre y cuando también se comprendan y mitiguen los riesgos epistémicos relacionados.

Para abordar esto, nuestra investigación describe los riesgos epistémicos que presentan los chatbots en dos dimensiones clave: ¿Qué importancia tiene la veracidad de la respuesta de los chatbots para una tarea? ¿Y qué tan difícil es comprobar la veracidad de la respuesta del chatbot? Algunas tareas laborales requieren niveles altos de veracidad; es importante que las respuestas del chatbot sean precisas y verdaderas. Por ejemplo, tareas que tienen que ver con el bienestar de las personas en contextos de seguridad, atención médica y educación. También hay otras tareas en las que es menos importante que la respuesta sea perfectamente precisa y verdadera, como la generación de ideas para un nuevo producto o servicio, la creación de historias para trabajos de entretenimiento o el trabajo creativo para dar nombre a productos, marcas y logotipos.

La otra dimensión importante del riesgo epistémico es lo difícil que es verificar el contenido que se crea. Para algunas tareas, es relativamente fácil verificar la respuesta de las herramientas de IA generativa. Por ejemplo, no es difícil para un comerciante comprobar el valor de cotización de una empresa que cotiza en bolsa en un momento determinado. Sin embargo, hay otras tareas en las que es mucho más difícil comprobar una afirmación en particular. Esto puede incluir a un vendedor que intente verificar los rumores sobre un próximo producto nuevo de la competencia o a un creativo publicitario que busque comprobar la viabilidad de una nueva idea para una campaña publicitaria.

Al unir estas dos dimensiones, obtenemos cuatro tipos diferentes de tareas en las que los chatbots generativos pueden ayudar, cada una con diferentes riesgos que deben gestionarse de diferentes maneras.

Understanding the Risks of Different Chatbot-Assisted Tasks . Understanding the Risks of Different Chatbot-Assisted Tasks. To understand the risks of different chatbot-assisted tasks, ask two questions: How important is the veracity of a chatbot’s response when it comes to a task? And how difficult is it to verify the veracity of the response? This 2 by 2 matrix categorizes the possible answers to these questions in four quadrants: Tasks for which the veracity is important and it’s difficult to verify, are authenticated. Tasks where the veracity isn’t important and it’s difficult to verify, are augmented. Tasks for which the veracity is important and it’s easy to verify, are automated. And tasks where the veracity is not important but it’s easy to verify, are autonomous. Source: Ian P. MickCarthy, Timothy R. Hannigan, and André Spicer

Ver más gráficos de HBR en Datos e imágenes

Tareas autenticadas.

Con las tareas autenticadas, la veracidad de la declaración de un chatbot es crucial, pero a menudo es difícil de comprobar. Algunos ejemplos incluyen tareas presupuestarias complejas, comprobar los procedimientos de seguridad (como el flujo de trabajo de diagnóstico clínico para los radiólogos que examinan las imágenes de los pacientes) o las sentencias legales. En estos contextos, el mayor riesgo al que se enfrentan los usuarios de chatbots es una mala calibración, ya que no hay una relación precisa entre los resultados y los datos o la información cruciales. Esto es lo que ocurrió cuando los dos abogados neoyorquinos que mencionamos al principio de este artículo presentaron un caso legal generado por ChatGPT, que contenía referencias legales inventadas.

Sin embargo, este riesgo se puede gestionar comprobando y calibrando cuidadosamente el modelo de LLM del chatbot y los resultados que genera. De acuerdo con la naturaleza de la tarea de trabajo, esto implica que el modelo sea entrenado y probado para comprobar su veracidad e identificar y corregir las limitaciones del modelo. Esta calibración puede implicar que un experto humano bien formado compruebe los resultados creados por un chatbot comparándolos con los hechos aceptados, por ejemplo. Esto demuestra el valor de los chatbots específicos del consultorio en lugar de los de uso general (como ChatGPT). Las direcciones prometedoras para los chatbots específicos de la práctica incluyen las que emplean tecnologías emergentes de LLM, como recuperación de generación aumentada (RAG) así como los usuarios que desarrollan un conjunto de prácticas de ingeniería rápidas. Cuando se utilizan las indicaciones de forma eficaz en una secuencia eficaz, el usuario y el chatbot pueden recopilar información y corregir posibles errores.

Tareas aumentadas.

El segundo contexto implica tareas aumentadas en las que la veracidad o la precisión del resultado no son particularmente importantes y es difícil verificar la verdad o la idoneidad del resultado de una IA. Esto ocurre en tareas que requieren un pensamiento exploratorio o creativo, como la lluvia de ideas o la generación de ideas. Con este tipo de tareas, el principal riesgo es la ignorancia, ya que se pasa por alto información o ideas importantes, o quizás se incluye erróneamente información inapropiada. Por ejemplo, en concursos de crowdsourcing de ideas, los expertos en innovación consideraron que las ideas generadas por el chatbot eran más factibles, impactantes, pero menos novedosas que las ideas generadas por humanos. Esto pone de relieve la importancia de contar con los expertos humanos adecuados que aumenten las respuestas aparentemente creativas que pueden producir estas máquinas basadas en la lógica.

Tareas automatizadas.

Una tercera forma de utilizar la IA generativa es en contextos automatizados, donde la precisión de la respuesta es vital y la información es relativamente fácil de verificar. Algunos ejemplos de este tipo de tareas incluyen la evaluación de las solicitudes de préstamo o la comprobación del funcionamiento de un fragmento de código de ordenador. En estos casos, el principal riesgo es la rutina. Esto ocurre cuando las personas confían demasiado en los resultados de una IA y no comprueban ni evalúan periódicamente la razonabilidad de las respuestas. Esto ocurrió cuando un pasajero de Air Canada cuya abuela acababa de morir inició sesión en el sitio web de la aerolínea para preguntar cuáles eran las políticas de la aerolínea en materia de viajes en duelo. El chatbot dio una respuesta incorrecta, lo que más tarde hizo que el pasajero no pudiera recibir el reembolso. Este error administrativo automático se convirtió en una noticia internacional cuando el cliente logró obtener un reembolso al llevar a la aerolínea ante los tribunales.

El riesgo que proviene de la automatización se puede gestionar exigiendo que los procesos automatizados sean copilotados periódicamente por un usuario humano que compruebe las evaluaciones y las decisiones. Esto garantiza que los usuarios humanos puedan detectar los errores y que los usuarios no «se duerman al volante».

Tareas autónomas.

Una última forma de utilizar la IA generativa en el trabajo es en un contexto autónomo. Esto ocurre cuando la precisión o la veracidad de la respuesta de un chatbot son menos importantes y es relativamente fácil verificar el resultado. Algunos ejemplos de este tipo de tareas incluyen procesar consultas administrativas o de servicio de atención al cliente rutinarias. En estos contextos, el principal riesgo que crea la IA es el boxeo negro, por lo que resulta difícil o imposible entender cómo funciona una tecnología de IA en particular. Esto es lo que ocurrió cuando la empresa francesa de paquetería DPD lanzó un chatbot para responder a las preguntas de los clientes. Hubo al menos un caso en el que el chatbot maldijo y escribió haikus en el que se criticaba a la empresa. Dado lo complejos que pueden ser los chatbots, puede resultar difícil determinar de dónde vienen esos errores y cómo detenerlos.

En estos contextos, este riesgo se puede gestionar mediante el entrenamiento y limitando el rango de respuestas y el vocabulario del modelo de LLM del chatbot. Para garantizar la fiabilidad y evitar riesgos tontos, el ámbito del uso de los chatbots debería ser más limitado y las barreras (es decir, las normas, directrices o limitaciones para el uso de los chatbots) más restrictivas.

. . .

Los chatbots y otras herramientas que se basan en la IA generativa tienen un gran potencial para mejorar significativamente muchos procesos de trabajo. Sin embargo, como cualquier nueva tecnología importante, también conllevan riesgos. Como muestran los ejemplos que ofrecemos, si los riesgos epistémicos del uso de tonterías no se gestionan adecuadamente, los resultados para las personas, las empresas o las profesiones pueden resultar potencialmente muy costosos. Sin embargo, con una gestión cuidadosa, se pueden contener estos riesgos y, al mismo tiempo, aprovechar los beneficios.