La IA generativa no revolucionará las búsquedas, todavía
por Ege Gurdeniz, Kartik Hosanagar

ChatGPT ha creado un frenesí. Desde el lanzamiento del modelo de lenguaje grande (LLM) de OpenAI a finales de noviembre, se ha especulado desenfrenadamente sobre cómo la IA generativa —de la que ChatGPT es solo una— podría cambiar todo lo que sabemos sobre el conocimiento, la investigación y la creación de contenido. O remodelar la fuerza laboral y las habilidades que los empleados necesitan para prosperar. ¡O incluso poner patas arriba industrias enteras!
Un área destaca como uno de los principales premios de la carrera de la IA generativa: la búsqueda. La IA generativa tiene el potencial de cambiar drásticamente lo que los usuarios esperan de las búsquedas.
Google, el ganador desde hace mucho tiempo de las búsquedas en Internet, parece tener de repente un rival en Microsoft, que recientemente invirtió 10 mil millones de dólares en el desarrollador de ChatGPT, OpenAI, y anunció sus planes de incorporar la herramienta en una gama de productos de Microsoft, incluido su motor de búsqueda, Bing. Mientras tanto, Google lanza su propia herramienta de inteligencia artificial, Bard, y el gigante tecnológico chino Baidu se prepara para lanzar un Competidor de ChatGPT. También se están invirtiendo millones de dólares en empresas emergentes de IA generativa.
Pero a pesar del bombo publicitario en torno a ChatGPT —y a la IA generativa en general—, hay importantes desafíos prácticos, técnicos y legales que superar antes de que estas herramientas puedan alcanzar la escala, la solidez y la fiabilidad de un motor de búsqueda establecido como Google.
Las noticias de ayer
Los motores de búsqueda se generalizaron a principios de la década de 1990, pero su enfoque principal no ha cambiado desde entonces: clasificar los sitios web indexados de la manera que sea más relevante para el usuario. La era de la Búsqueda 1.0 exigía que los usuarios introdujeran una palabra clave o una combinación de palabras clave para consultar el motor. La búsqueda 2.0 llegó a finales de la década de 2000 con la introducción de la búsqueda semántica, que permitía a los usuarios escribir frases naturales como si interactuaran con un humano.
Google dominó las búsquedas desde su lanzamiento gracias a tres factores clave: su interfaz de usuario sencilla y ordenada; la revolucionaria Algoritmo PageRank, que arrojó resultados relevantes; y la capacidad de Google de escalar sin problemas con un volumen vertiginoso. La Búsqueda de Google ha sido la herramienta perfecta para abordar un caso de uso bien definido: encontrar sitios web que tengan la información que busca.
Pero ahora parece que hay un nuevo caso de uso en aumento. Como también reconoció Google en su anuncio de Malo, los usuarios ahora buscan algo más que una lista de sitios web relevantes para una consulta, sino que quieren «información y una comprensión más profundas».
Y eso es exactamente lo que hace Search 3.0: ofrece respuestas en lugar de sitios web. Si bien Google ha sido el colega que nos indica un libro de la biblioteca que puede responder a nuestra pregunta, ChatGPT es el colega que ya ha leído todos los libros de la biblioteca y puede responder a nuestra pregunta. En teoría, de todos modos.
Pero este es también el primer problema de ChatGPT: en su forma actual, ChatGPT no es un motor de búsqueda, sobre todo porque no tiene acceso a la información en tiempo real como lo hace un motor de búsqueda que rastrea la web. ChatGPT se entrenó con un enorme conjunto de datos con un límite en octubre de 2021. Este proceso de formación le dio a ChatGPT una cantidad impresionante de conocimientos estáticos, así como la capacidad de entender y producir el lenguaje humano. Sin embargo, no «sabe» nada más allá de eso. Por lo que respecta a ChatGPT, Rusia no ha invadido Ucrania, FTX es una bolsa de criptomonedas exitosa, la reina Isabel está viva y Covid no ha llegado al escenario de Ómicron. Probablemente por eso, en diciembre de 2022, el CEO de OpenAI, Sam Altman dijo , «Es un error confiar en [ChatGPT] para algo importante ahora mismo».
¿Cambiará esto en un futuro próximo? Eso plantea el segundo gran problema: por ahora, volver a formar un LLM de forma continua a medida que la información de Internet evoluciona es extremadamente difícil.
El desafío más obvio es la enorme cantidad de potencia de procesamiento necesaria para formar de forma continua un LLM y el coste financiero asociado a estos recursos. Google cubre los costes de búsqueda vendiendo anuncios, lo que le permite ofrecer el servicio de forma gratuita. El mayor coste energético de los LLM dificulta su realización, sobre todo si el objetivo es procesar las consultas al ritmo que Google, que se estima en decenas de miles por segundo (o unos pocos miles de millones al día). Una posible solución podría ser entrenar el modelo con menos frecuencia y evitar aplicarlo a las consultas de búsqueda que traten temas que evolucionan rápidamente.
Pero aunque las empresas logren superar este desafío técnico y financiero, sigue existiendo el problema de la información real que proporcionará: ¿qué es exactamente lo que van a aprender herramientas como ChatGPT y de quién?
Considere la fuente
Los chatbots, como ChatGPT, son como espejos que se muestran a la sociedad: reflejan lo que ven. Si los deja libres para que se entrenen con datos sin filtrar de Internet, podrían escupir vitriolo. (Recuerde lo que pasó con Tay?) Por eso los LLM se forman en conjuntos de datos cuidadosamente seleccionados que el desarrollador considera apropiados.
Pero este nivel de selección no garantiza que todo el contenido de conjuntos de datos en línea tan masivos sea correcto desde el punto de vista fáctico y libre de sesgos. De hecho, un estudiar de Emily Bender, Timnit Gebru, Angelina McMillan-Major y Margaret Mitchell (acreditada como «Shmargaret Shmitchell») descubrió que «los grandes conjuntos de datos basados en textos de Internet sobrerrepresentan los puntos de vista hegemónicos y codifican sesgos que pueden dañar a las poblaciones marginadas». Por ejemplo, una fuente clave de datos de entrenamiento de ChatGPT es Reddit, y los autores citan un estudio de Pew Research que muestra que el 67% de los usuarios de Reddit en los Estados Unidos son hombres y el 64% tienen entre 18 y 29 años.
Estas disparidades en la participación en Internet según los factores demográficos, como el género, la edad, la raza, la nacionalidad, el nivel socioeconómico y la afiliación política, significan que la IA reflejará los puntos de vista del grupo más dominante en el contenido comisariado. ChatGPT ya ha sido acusado de ser» se despertó» y tener un» sesgo liberal.» Al mismo tiempo, el chatbot también ha entregado perfiles raciales recomendaciones, y un profesor de la Universidad de California en Berkley consiguió que la IA escribir código eso dice que solo los hombres blancos o asiáticos serían buenos científicos. Desde entonces, OpenAI ha puesto barandillas para evitar estos incidentes, pero el problema subyacente sigue existiendo.
El sesgo también es un problema con los motores de búsqueda tradicionales, ya que pueden llevar a los usuarios a sitios web que contienen contenido sesgado, racista, incorrecto o inapropiado. Pero como Google no es más que una guía que dirige a los usuarios hacia las fuentes, asume menos responsabilidad por sus contenidos. Presentados el contenido y la información contextual (por ejemplo, los sesgos políticos conocidos de la fuente), los usuarios aplican su juicio para distinguir los hechos de la ficción, la opinión de la verdad objetiva y decidir qué información quieren utilizar. Esta medida basada en la sentencia se elimina con ChatGPT, lo que la hace directamente responsable de los resultados sesgados y racistas que pueda ofrecer.
Esto plantea la cuestión de la transparencia: los usuarios no tienen ni idea de qué fuentes hay detrás de una respuesta con una herramienta como ChatGPT y la IA no las proporciona cuando se les pregunta. Esto crea una situación peligrosa en la que el usuario puede tomar una máquina sesgada como una herramienta objetiva que debe ser correcta. OpenAI está trabajando para abordar este desafío con WebGPT, una versión de la herramienta de IA que está entrenada para citar sus fuentes, pero su eficacia está por verse.
La opacidad en torno al abastecimiento puede llevar a otro problema: académico estudia y las pruebas anecdóticas han demostrado que las aplicaciones de IA generativa pueden plagiar el contenido de sus datos de entrenamiento; en otras palabras, el trabajo de otra persona, que no dio su consentimiento para que su trabajo protegido por derechos de autor se incluyera en los datos de entrenamiento, no recibió compensación por el uso de la obra y no recibió ningún crédito. (El Neoyorquino describió recientemente esto como las «tres C» en un artículo sobre una demanda colectiva contra las empresas de IA generativa Midjourney, Stable Diffusion y Dream Up.) Demandas contra Microsoft, OpenAI, GitHub y otros también están surgiendo, y esto parece ser el principio de una nueva ola de batallas legales y éticas.
El plagio es un problema, pero también hay veces en las que los LLM se inventan cosas. En un error muy público, Bard de Google, por ejemplo, entregó información incorrecta desde el punto de vista fáctico sobre el telescopio James Webb durante un demostración. Del mismo modo, cuando se le preguntó a ChatGPT por el artículo de investigación más citado en economía, regresó con una cita de investigación completamente inventada.
Debido a estos problemas, ChatGPT y los LLM genéricos tienen que superar importantes desafíos para ser útiles en cualquier esfuerzo serio por encontrar información o producir contenido, especialmente en las solicitudes académicas y corporativas, donde incluso el más mínimo traspié podría tener catastróficas implicaciones profesionales.
Va en vertical
Es probable que los LLM mejoren ciertos aspectos de los motores de búsqueda tradicionales, pero actualmente no parece que sean capaces de destronar las búsquedas en Google. Sin embargo, podrían desempeñar un papel más disruptivo y revolucionario a la hora de cambiar otros tipos de búsqueda.
Lo que es más probable en la era de la Búsqueda 3.0 es el auge de los LLM seleccionados y entrenados deliberadamente para la búsqueda vertical, que son motores de búsqueda especializados y específicos por temas.
La búsqueda vertical es un caso de uso sólido para los LLM por varias razones. En primer lugar, se centran en campos y casos de uso específicos: un conocimiento limitado pero profundo. Esto facilita la formación de los LLM en conjuntos de datos altamente seleccionados, que podrían incluir una documentación completa que describa las fuentes y los detalles técnicos del modelo. También facilita que estos conjuntos de datos se rijan por las leyes, normas y reglamentos correspondientes sobre derechos de autor, propiedad intelectual y privacidad. Los modelos lingüísticos más pequeños y específicos también significan un coste computacional más bajo, lo que facilita su reciclaje con más frecuencia. Por último, estos LLM estarían sujetos a pruebas y auditorías periódicas por parte de expertos externos, de forma similar a como los modelos analíticos utilizados en las instituciones financieras reguladas están sujetos a rigurosos requisitos de prueba.
En los campos en los que el conocimiento experto basado en hechos y datos históricos es una parte importante del trabajo, los LLM verticales pueden proporcionar una nueva generación de herramientas de productividad que aumentan a las personas de formas completamente nuevas. Imagínese una versión de ChatGPT formada en revistas y libros de texto médicos revisados y publicados por pares e integrada en Microsoft Office como asistente de investigación para profesionales de la medicina. O una versión basada en décadas de datos financieros y artículos de las principales bases de datos y revistas financieras que los analistas bancarios utilizan para investigar. Otro ejemplo es el entrenamiento de LLM para escribir o depurar código y responder a las preguntas de los desarrolladores.
Las empresas y los empresarios pueden hacer cinco preguntas al evaluar si hay motivos de uso sólidos para aplicar un LLM a una aplicación de búsqueda vertical:
- ¿La tarea o el proceso requieren tradicionalmente una investigación exhaustiva o una profunda experiencia en la materia?
- ¿El resultado de la tarea es información, perspicacia o conocimiento sintetizados que permiten al usuario tomar medidas o tomar una decisión?
- ¿Existen suficientes datos históricos, técnicos o fácticos para entrenar a la IA y convertirse en un experto en el área de la búsqueda vertical?
- ¿Se puede formar el LLM con nueva información con la frecuencia adecuada para que proporcione información actualizada?
- ¿Es legal y ético que la IA aprenda, replique y perpetúe los puntos de vista, suposiciones e información incluidos en los datos de entrenamiento?
Responder con confianza a las preguntas anteriores requerirá un enfoque multidisciplinario que reúna las perspectivas empresariales, técnicas, legales, financieras y éticas. Pero si la respuesta es «sí» a las cinco preguntas, es probable que haya un caso de uso sólido para un LLM vertical.
Dejar que el polvo se asiente
La tecnología detrás de ChatGPT es impresionante, pero no exclusiva, y pronto será fácilmente replicable y mercantilizable. Con el tiempo, el enamoramiento del público por las encantadoras respuestas que produce ChatGPT se desvanecerá a medida que la realidad práctica y las limitaciones de la tecnología comiencen a hacerse realidad. Como resultado, los inversores y los usuarios deben prestar atención a las empresas que se centran en abordar los desafíos técnicos, legales y éticos discutidos anteriormente, ya que esos son los frentes en los que se diferencian los productos y, en última instancia, se ganan las batallas de la IA
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.