PathMBA Vault

AI and machine learning

Cómo las plataformas de colaboración de datos pueden ayudar a las empresas a crear una mejor IA

por José Parra-Moyano, Karl Schmedders, Alex “Sandy” Pentland

Cómo las plataformas de colaboración de datos pueden ayudar a las empresas a crear una mejor IA

Los grandes modelos lingüísticos (LLM) como el GPT-4 han cautivado a los líderes empresariales con la promesa de mejora de la toma de decisiones, simplificación de las operaciones y nueva innovación. Empresas como Zendesk y Slack han empezado a utilizar los LLM para mejorar la atención al cliente, mejorar la satisfacción y reducir los costes. Mientras tanto, Goldman Sachs y GitHub están empleando una IA similar para ayudar a los desarrolladores a escribir código. Del mismo modo, la empresa Unilever utiliza los LLM para ayudar a responder a los mensajes de los clientes, generar listados de productos e incluso minimizar el desperdicio de alimentos. Sin embargo, listas para usar, las LLM no ofrecen la solución lista para usar que las empresas esperan. Cuando se enfrentan al contexto único de una organización, a menudo tienen un rendimiento inferior.

Para superar este desafío, los líderes empresariales han recurrido al ajuste Maestría en Derecho que luego se entrenan con datos específicos de la organización, lo que les permite dominar los matices y peculiaridades únicas de una organización. Con un contexto más amplio y adaptados a las necesidades de la organización, los modelos ajustados ofrecen una experiencia de IA potente y personalizada que mejora drásticamente el rendimiento de la organización. El BloombergGPT de Bloomberg —un modelo de investigación de IA ajustado con los datos propios de Bloomberg— ejemplifica cómo los modelos ajustados ayudan a las empresas a obtener una ventaja estratégica adaptando los modelos de IA con datos específicos del sector.

Sin embargo, hay tres desafíos inmediatos para las empresas que quieren entrenar modelos ajustados. En primer lugar, los modelos ajustados requieren datos extensos y de alta calidad, un recurso escaso para muchas empresas. En segundo lugar, los LLM se forman con datos disponibles públicamente en Internet y, por lo tanto, es posible que no tengan en cuenta la matices de comunidades o usuarios específicos, lo que resulta en respuestas sesgadas y en una falta de diversidad y pluralismo en el contenido generado. En tercer lugar, el entrenamiento de modelos ajustados con los datos personales de los usuarios puede provocar violaciones de la privacidad, ya que los datos personales se recopilaron originalmente con un propósito diferente.

Afortunadamente, estos desafíos se pueden superar. Están surgiendo plataformas que ofrecen un espacio de formación que preserva la privacidad sobre datos abundantes y de alta calidad, que garantizan el cumplimiento de las leyes de privacidad y que aprovechan todo el potencial de los modelos ajustados. Estas plataformas seleccionan y almacenan los datos de muchos agentes y pueden permitir a terceros obtener nueva información a partir de los datos personales que gestionan. Entrenar modelos ajustados a partir de los datos disponibles en esas plataformas aumenta las posibilidades de descubrir información de diversas subcomunidades, lo que se traduce en una IA más diversa, pluralista y universal.

Los desafíos de los datos de ajustar la IA

Esto es lo que los líderes deben saber sobre los tres desafíos que mencionamos:

En primer lugar, los modelos ajustados prosperan en conjuntos de datos vastos y diversos, pero muchas organizaciones no tienen datos suficientes para hacerlo lo suficientemente bien como para que su modelo pueda superar a una alternativa genérica. Esto puede ser especialmente cierto cuando se dirige a dominios especializados o altamente especializados. Y el problema se agrava cuando los datos disponibles no están estructurados o son de mala calidad, lo que dificulta la obtención de información significativa. El desafío no está solo en el volumen de los datos, sino también en garantizar su relevancia, precisión y representación de las diversas perspectivas.

En segundo lugar, los modelos genéricos de IA reflejan principalmente la Internet en general y no tienen en cuenta de forma inherente los matices de las comunidades que, por motivos como la edad, el género, la orientación sexual, los puntos de vista políticos, etc., no generan contenido legible y de acceso público en Internet. Por lo tanto, los modelos genéricos de IA suelen reflejar las narrativas y perspectivas dominantes presentes en Internet en general, marginando u omitiendo las experiencias y puntos de vista de comunidades específicas. Esto puede resultar en productos sesgados, sesgados o insensibles desde el punto de vista cultural. El desafío para las organizaciones es enriquecer estos modelos con datos que representen con precisión el diverso tejido de la sociedad, garantizando que las respuestas de la IA sean inclusivas, equitativas y con conciencia cultural. Más allá de las consecuencias éticas negativas de tener una IA que ignora a una parte de la sociedad, los líderes empresariales podrían pagar un alto precio por basar sus decisiones en modelos que no captan los matices de la realidad.

Por último, en el ámbito de la privacidad, el uso de datos personales para entrenar modelos afinados sin el consentimiento explícito puede revelar información privada y que de otro modo estaría oculta sobre las personas cuyos datos se analizan, y esto puede ir en contra de la normativa de privacidad. Por ejemplo, la Autoridad Italiana de Protección de Datos (Garante) prohibido temporalmente el uso de ChatGPT por haber utilizado los datos de las personas de formas que no habían aceptado. Las organizaciones deben actuar con cuidado y asegurarse de que tienen el consentimiento explícito para el uso de los datos y de que sus prácticas cumplen con las normas de privacidad regionales e internacionales, y de que pueden mantener la confidencialidad e integridad de los datos durante todo su ciclo de vida, desde la recopilación hasta el procesamiento y el almacenamiento.

Estos problemas, aislados o combinados, pueden, por decirlo suavemente, reducir significativamente el valor de los modelos de IA.

Enviar el algoritmo a los datos, y no al revés

Para superar estos tres desafíos, los líderes empresariales pueden beneficiarse de las colaboraciones de datos. La colaboración de datos es posible gracias a las plataformas que permiten a terceros obtener nuevos conocimientos de forma condicional a partir de los datos personales pero preservar la privacidad de quienes analizan los datos. Dado que estas colaboraciones de datos implementan la noción de enviar el algoritmo a los datos (en lugar de enviar los datos al algoritmo), los datos personales nunca se extraen de la fuente original en la que están almacenados, sino que se analizan dentro de ellos.

Algunos ejemplos de plataformas que permiten la colaboración de datos son Snowflake, Sherpa.ai, Tune Insight, TripleBlind, DSpark, Data Republic, Ocean Protocol, Gaia-X, Dawex, Enigma y Transformers, solo por nombrar algunos. Algunas de estas plataformas son empresas privadas (por ejemplo, Snowflake, Tune Insight, TripleBlind, DSpark, Data Republic, Dawex, Sherpa.ai) que ofrecen sus servicios de pago. Los otros son sistemas o asociaciones de código abierto que ofrecen sistemas que una organización o un consorcio de organizaciones pueden adoptar de forma cooperativa (ya sea de pago o de forma gratuita). La proliferación de empresas que permiten la colaboración de datos de diversas formas es una señal positiva para su adopción, ya que indica un creciente reconocimiento del valor y el potencial de los datos compartidos. Este desarrollo es beneficioso porque fomenta un entorno de colaboración e innovación, en el que diversas entidades pueden tener suficiente variedad en los servicios que ofrecen estas plataformas como para aprovechar los datos compartidos.

Estas plataformas de colaboración de datos pueden resolver la falta de datos para ajustar los modelos de IA. Por ejemplo, las empresas Sherpa.ai y Triple ciego ambos ofrecen a las organizaciones la ventaja de compartir datos para el entrenamiento o el ajuste de los modelos de IA, pero sin la necesidad real de que las empresas compartan los datos. Esto permite a las organizaciones ajustar colectivamente los modelos de IA para que todos puedan utilizar, sin mover, compartir ni almacenar los datos sin procesar de otras organizaciones, lo que permite, por ejemplo, a los hospitales y a las compañías farmacéuticas abordar la falta de datos y entrenar colectivamente algoritmos que sirvan para mejorar el diagnóstico y el tratamiento.

Pensemos en Gaia-X, una asociación establecida en Bruselas y financiado en parte por el gobierno alemán , es decir, crear una infraestructura de datos federada que permita a los propietarios de los datos (licenciantes) conceder derechos específicos y revocables a las organizaciones para utilizar sus datos para el entrenamiento de modelos. Un proyecto lanzado por el Instituto Alemán de Sistemas de Transporte ejemplifica los beneficios que la colaboración de datos aporta al colectivo entrenamiento de modelos de IA, en este caso, para conducir y guiar coches autónomos y conectados. Con la infraestructura de Gaia-X, los coches pueden enviar, en tiempo real, datos sobre las anomalías encontradas en la carretera (como obstáculos temporales, obras de construcción, etc.) a la plataforma que permite la colaboración de datos. Gracias a esos datos actualizados (que se traducen en una mejor anotación de los mapas), el modelo central de IA puede optimizar la conducción de todos los demás coches, evitar obstáculos, ahorrar tiempo y, a su vez, mejorar la experiencia de los conductores. Empresas como Palantir, BMW, Bosch, Deutsche Telekom, SAP, Orange y Siemens son trabajando con Gaia-X.

En contextos B2B en los que las limitaciones de privacidad o reglamentarias hacen que las empresas no puedan entrenar modelos de IA con datos reales de los clientes (por ejemplo, a las empresas de ciberseguridad no se les concede acceso a ver los datos de sus clientes para entrenar algoritmos que luchen contra los ciberataques), estas bolsas pueden permitirles entrenar modelos con datos de clientes reales, sin necesidad de acceder a estos datos. Este es uno de los casos de uso de Sherpa.ai, una plataforma lanzada por la empresa española del mismo nombre, que permite a las empresas desarrollar modelos de IA más sólidos y, al mismo tiempo, mantener la privacidad y la seguridad.

Las colaboraciones de datos también ofrecen nuevas formas de colaborar dentro y fuera del propio sector de una organización. Esto lo ejemplifica Dawex, que permite a los clubes deportivos (como el tenis, el baloncesto y otros deportes) que ya están generando y almacenando datos para su análisis a fin de aprovechar colectivamente sus datos y utilizar la analítica para crear nuevas asociaciones de datos, mejorar la experiencia de los aficionados y los consumidores, crear asociaciones de datos con otros sectores, como los seguros y el turismo, o para mejorar la gestión interna de los equipos y la salud de los jugadores.

Por último, piense en Transformers, una iniciativa lanzada por la alianza MIT Connection Science, cuyo objetivo es permitir a las comunidades agregar datos locales de forma segura y privada, lo que permite a los modelos de IA ofrecer respuestas relevantes desde el punto de vista del contexto y adaptadas a los requisitos específicos de la comunidad, pero sin revelar los aspectos privados de esa comunidad. Transformers se ha concebido especialmente para abordar las limitaciones de los LLM que se derivan de su dependencia de los datos públicos históricos y de la falta de una contextualización segura, por lo que representa el primer intento específico de adaptar los LLM a las necesidades específicas de las comunidades sensibles.

Transformers utiliza una combinación de transformaciones de privacidad convencionales, entornos de ejecución fiables, custodia de datos y opciones de privacidad basadas en el consentimiento para facilitar la actualización continua de los datos de la comunidad en modelos de IA alojados de forma privada, lo que lleva a una herramienta de preguntas y respuestas personalizada que refleja los valores de la comunidad y las situaciones individuales. Este método no solo mejora la utilidad de los modelos de IA, sino que también protege la información personal y comunitaria confidencial, abordando así las limitaciones de los modelos de IA derivadas de su dependencia de los datos públicos históricos y de la ausencia de una contextualización segura.

Los próximos pasos para los líderes empresariales

Al adoptar las colaboraciones de datos, los líderes empresariales pueden acceder de forma segura a datos de alta calidad, evitar problemas legales, obtener una visión del mundo diversa, pluralista y, por lo tanto, más amplia, y aprovechar todo el potencial de los modelos ajustados.

Por lo tanto, los líderes empresariales deberían tener en cuenta las siguientes medidas cuando se trata del uso de la IA generativa para cumplir el propósito de sus respectivas organizaciones:

1. Reconozca las limitaciones de los modelos de IA genéricos.

Reconocer las limitaciones de los modelos genéricos de IA es crucial para los líderes empresariales. Las herramientas estándar, si bien son avanzadas, a menudo carecen de una comprensión especializada del contexto, la cultura y los matices operativos de una empresa específica, lo que puede provocar un rendimiento inferior en las aplicaciones del mundo real. La personalización es la clave para alinear estas herramientas con el entorno y los requisitos únicos de una organización. Adaptar los modelos de IA para reflejar el lenguaje, los procesos y las interacciones con los clientes específicos de una empresa puede mejorar significativamente su relevancia y eficacia, garantizando que las soluciones de IA ofrezcan valor y generen resultados significativos.

2. Priorice la calidad y la diversidad de los datos.

Los conjuntos de datos diversos y de alta calidad son esenciales para entrenar los modelos de IA. Permiten que los modelos ofrezcan respuestas más precisas, imparciales y sensibles desde el punto de vista cultural, reflejando la verdadera diversidad de los clientes y sus preferencias. Aprovechar las colaboraciones de datos para garantizar la diversidad de datos que dé como resultado una IA que sirva por igual a todos los que se van a ver afectados por esa IA puede mejorar significativamente el rendimiento del modelo. En ese sentido, un proyecto como Transformers, que permite una herramienta de preguntas y respuestas personalizada y que preserve la privacidad que refleje los valores de la comunidad y las situaciones individuales, puede ser fundamental para garantizar la diversidad de los datos.

3. Atrévase a explorar nuevas colaboraciones con clientes, socios e incluso competidores.

Dadas las posibilidades que ofrecen las colaboraciones de datos, los líderes empresariales pueden beneficiarse si adoptan la colaboración, no solo con los socios (como hace TripleBlind) o con los clientes (como hace Sherpa.ai), sino incluso con la competencia (como en el caso de Dawex). Las organizaciones del mismo sector pueden colaborar para abordar los desafíos que sufre todo el sector; al unir recursos y conocimientos, las empresas pueden mejorar colectivamente los modelos de IA, lo que lleva a innovaciones y eficiencias que tal vez no se puedan lograr de forma independiente. Esta estrategia puede abrir nuevas oportunidades de crecimiento y resolución de problemas, ya que ofrece reducciones de costes y aumentos de eficiencia en un panorama empresarial cada vez más basado en los datos.

4. Recuerde que los datos son perecederos.

Como los datos son solo un reflejo de la realidad y la realidad puede cambiar rápidamente, es importante ajustar los modelos de IA con los datos más recientes que reflejen el estado actual del mundo. Como en el caso de la Gaia-X, en el que los coches autónomos pueden denunciar cambios u obstáculos en la carretera, los líderes empresariales deberían tratar de encontrar fuentes de datos que reflejen el último estado del problema que la IA necesita resolver (ya sea la capacidad de conducción de las carreteras, las preferencias de los clientes, los valores de vida de los clientes o cualquier otra variable de ese tipo). Siempre que esos datos existen fuera de los límites de la organización, las colaboraciones de datos ofrecen una forma.

. . .

Los líderes empresariales que estén considerando estas medidas estarán en mejores condiciones de desarrollar herramientas de IA útiles que capturen la diversidad de la sociedad y, por lo tanto, logren la excelencia empresarial de una manera responsable y exitosa.

Nota del editor (1 de febrero de 2024): Este artículo se ha actualizado para corregir los detalles sobre BloombergGPT.