PathMBA Vault

AI and machine learning

Cómo hacer equipo rojo de un modelo de IA de generación

por Andrew Burt

Cómo hacer equipo rojo de un modelo de IA de generación

En los últimos meses, los gobiernos de todo el mundo han empezado a converger en torno a una solución para gestionar los riesgos de la IA generativa: el trabajo en equipo rojo.

A finales de octubre, la administración Biden publicó su orden ejecutiva arrolladora en la IA. Entre sus requisitos más importantes está que ciertos modelos de IA generativa de alto riesgo se sometan a «equipos rojos», que define vagamente como «un esfuerzo de pruebas estructuradas para encontrar defectos y vulnerabilidades en un sistema de IA». Esto ocurrió unos meses después de que la administración organizara una IA formal evento de equipo rojo eso atrajo a miles de hackers.

Centrarse en el equipo rojo es un avance positivo. El trabajo en equipo rojo es una de las formas más eficaces de descubrir y gestionar los riesgos de la IA generativa. Sin embargo, existen varios obstáculos importantes para implementar el trabajo en equipo rojo en la práctica, como aclarar qué constituye realmente un equipo rojo, estandarizar lo que hace ese equipo al probar el modelo y especificar cómo se codifican y difunden los hallazgos una vez finalizadas las pruebas.

Cada modelo tiene una superficie de ataque, vulnerabilidades y entornos de despliegue diferentes, lo que significa que no habrá dos equipos rojos exactamente iguales. Por esa razón, la formación de equipos rojos de forma coherente y transparente se ha convertido en un desafío central en el despliegue de la IA generativa, tanto para los proveedores que desarrollan los modelos fundamentales como para las empresas que ajustan y utilizan esos modelos.

Este artículo tiene como objetivo abordar estas barreras y resumir mi experiencia trabajando en equipo con varios sistemas de IA generativa diferentes. Mi bufete de abogados, Luminos.Law, que está formado conjuntamente por abogados y científicos de datos, se centra exclusivamente en la gestión de los riesgos de la IA. Tras ser contratados en el equipo rojo con algunos de los modelos de IA generativa más destacados y ampliamente adoptados, hemos descubierto lo que funciona y lo que no cuando hacemos equipos rojos con la IA generativa. Esto es lo que hemos aprendido.

¿Qué es la IA generativa de Red Teaming?

A pesar del creciente entusiasmo por la actividad, hay sin un consenso claro sobre lo que significa la IA generativa en equipo rojo en la práctica. Esto es a pesar de que algunos de el las mayores empresas de tecnología han empezado a adoptar públicamente el método como un componente fundamental para crear una IA generativa fiable.

El término en sí se popularizó durante la Guerra Fría y el Departamento de Defensa de los Estados Unidos comenzó a integrarlo formalmente en las iniciativas de planificación de la guerra. En los ejercicios de simulación, los llamados equipos rojos tenían la tarea de actuar como el adversario soviético (de ahí el término «rojo»), mientras que a los equipos azules se les encomendó actuar como los Estados Unidos o sus aliados. A medida que los esfuerzos de seguridad de la información maduraron a lo largo de los años, la comunidad de ciberseguridad adoptó el mismo lenguaje y aplicó el concepto de equipo rojo a las pruebas de seguridad de los sistemas de software tradicionales.

Red Teaming La IA generativa es muy diferente a la creación de equipos rojos con otros sistemas de software, incluidos otros tipos de IA. A diferencia de otros sistemas de IA, que normalmente se utilizan para tomar una decisión (como a quién contratar o qué calificación crediticia debe tener una persona), los sistemas de IA generativa producen contenido para sus usuarios. La interacción de cualquier usuario con un sistema de IA generativa puede crear un enorme volumen de texto, imágenes o audio.

Los daños que crean los sistemas de IA generativa son, en muchos casos, diferentes de los de otras formas de IA tanto en alcance como en escala. La IA generativa de Red Teaming está diseñada específicamente para generar contenido perjudicial que no tenga una analogía clara en los sistemas de software tradicionales, desde generar estereotipos e imágenes gráficas degradantes hasta mentir rotundamente. De hecho, los daños que los equipos rojos intentan generar se asocian más comúnmente con los humanos que con el software.

En la práctica, esto significa que las formas en que los equipos rojos interactúan con los propios sistemas de IA generativa son únicas: deben centrarse en generar indicaciones o entradas maliciosas en el modelo, además de realizar pruebas con código más tradicional para comprobar la capacidad del sistema de producir comportamientos dañinos o inapropiados. Hay todo tipo de formas de generar este tipo de mensajes malintencionados, desde cambiar sutilmente las indicaciones para simplemente presionando a la modelo en generar resultados problemáticos. La lista de formas de atacar eficazmente la IA generativa es larga y crece cada día más.

¿Quién debería formar el equipo rojo de la IA?

Al igual que la propia definición de equipo rojo, no hay un consenso claro sobre cómo debe construirse cada equipo rojo. Por esa razón, una de las primeras preguntas que deben abordar las empresas es si el equipo rojo debe ser interno o externo a la empresa.

Las empresas, incluida Google, que han creado sus propios equipos rojos de IA ahora abogan por equipos rojos internos, en la que empleados con varios tipos de experiencia simulan ataques al modelo de IA. Otros, como OpenAI, han adoptado el concepto de trabajo en equipo rojo externo, llegando incluso a crear una red externa para animar a miembros externos a unirse. Determinar cómo deben constituirse los equipos rojos de IA es una de las tareas que la administración Biden ha encomendado a los directores de las agencias federales, que van a responder a la pregunta el año que viene en un próximo informe.

Entonces, ¿qué les decimos a nuestros clientes? Para empezar, no existe un enfoque talle único para crear equipos rojos para la IA generativa. Estas son algunas directrices generales.

Debido a la enorme escala de los sistemas de IA que muchas empresas están adoptando, sería imposible hacer equipos totalmente rojos en cada uno de ellos. Por esa razón, la clave para una formación eficaz de equipos rojos está en clasificar el riesgo de cada sistema. Decimos a nuestros clientes que asignen diferentes niveles de riesgo a los diferentes modelos, según, por ejemplo, la probabilidad de que se produzca el daño, la gravedad del daño si se produce o la capacidad de rectificar el daño una vez detectado. (Estos son métricas más aceptadas de definir el riesgo.) Entonces, se pueden utilizar diferentes niveles de riesgo para guiar la intensidad de cada esfuerzo de equipo rojo: el tamaño del equipo rojo, por ejemplo, o el grado en que se pone a prueba el sistema, o incluso si se pone a prueba.

Con este enfoque, los modelos de menor riesgo deberían someterse a pruebas menos exhaustivas. Otros modelos pueden requerir pruebas internas, pero no la revisión por parte de expertos externos, mientras que los sistemas de mayor riesgo suelen requerir equipos rojos externos. Las partes externas centradas en la IA, el trabajo en equipo rojo, es probable que la IA generativa tengan niveles más altos de experiencia en equipos rojos y, por lo tanto, puedan descubrir más vulnerabilidades. Las revisiones externas pueden demostrar un nivel de cuidado razonable y reducir también la responsabilidad al documentar que partes externas han aprobado el sistema de IA generativa.

Objetivos de degradación

Entender qué es lo que perjudica a los equipos rojos es muy importante. Seleccionamos lo que llamamos «objetivos de degradación» para guiar nuestros esfuerzos e iniciamos nuestro equipo rojo evaluando qué tipos de comportamiento modelo perjudicial generarán la mayor responsabilidad.

Los objetivos de degradación son muy importantes porque, a menos que estén claramente definidos y mapeados según las responsabilidades más importantes que plantea cada sistema, la formación de equipos en rojo casi siempre no tiene éxito o, en el mejor de los casos, está incompleta. De hecho, sin una organización adecuada, los equipos rojos se llevan a cabo con demasiada frecuencia sin un plan coordinado para generar daños específicos, lo que lleva a ataques al sistema y a conclusiones estratégicas claras y procesables. Si bien este tipo de equipos rojos puede crear la apariencia de pruebas exhaustivas, un sondeo desorganizado de este tipo puede resultar contraproducente, ya que crea la impresión de que el sistema se ha probado a fondo cuando aún quedan brechas importantes.

Además de una evaluación clara de los riesgos y las responsabilidades, también es una buena práctica alinear los objetivos de degradación con los incidentes conocidos de sistemas de IA generativa similares. Si bien hay diferentes formas de rastrear y comparar los incidentes del pasado, el Base de datos de incidentes de IA es un gran recurso (y del que dependemos en gran medida).

Estos son algunos de los objetivos de degradación más comunes de nuestros anteriores esfuerzos de equipo rojo:

Ayudar a los usuarios a participar en actividades ilícitas

Los usuarios pueden aprovechar los sistemas de IA generativa para ayudar a llevar a cabo una serie de actividades dañinas y, en muchos casos, generar una responsabilidad importante para las empresas que despliegan el sistema de IA en el proceso. Si no existen suficientes salvaguardias contra este tipo de comportamiento modelo, las empresas podrían acabar compartiendo la responsabilidad por el daño máximo. En el pasado, hicimos pruebas para detectar daños que iban desde las instrucciones para la fabricación de armas y medicamentos hasta la realización de una contabilidad fraudulenta y el modelo de llevar a cabo campañas de hackeo automatizadas.

Sesgo en el modelo

La IA en general puede generar o perpetuar todo tipo de sesgos, como he escrito sobre aquí antes, lo que, a su vez, puede conllevar muchos tipos diferentes de responsabilidades en virtud de la ley antidiscriminación. La Comisión Federal de Comercio de los Estados Unidos ha dedicado mucha atención a el tema de la injusticia en la IA en los últimos años, al igual que los legisladores, lo que indica que hay más responsabilidad en este ámbito. Pueden surgir sesgos en la producción del modelo, como representar injustamente a diferentes grupos demográficos en el contenido generado por la IA, así como en el propio rendimiento del modelo, como actuar de manera diferente para los miembros de diferentes grupos (angloparlantes nativos y no nativos, por ejemplo).

Toxicidad

La toxicidad en la IA generativa surge con la creación de contenido ofensivo o inapropiado. Este número tiene una larga historia en la IA generativa, como cuando el chatbot Tay infame comenzó a generar públicamente una producción racista y sexista. Como los modelos de IA generativa están moldeados por enormes cantidades de datos extraídos de Internet —un lugar que no es conocido por su decoro—, el contenido tóxico afecta a muchos sistemas de IA generativa. De hecho, la toxicidad es un tema tal que ha dado lugar a un campo de estudio completamente nuevo en la investigación de la IA conocido como» desintoxicación.”

La privacidad perjudica

Hay muchas formas en las que los modelos de IA generativos pueden dañar la privacidad. A veces, la información de identificación personal figura en los propios datos de entrenamiento, que puede ser hackeado por parte de usuarios adversarios. Otras veces, la modelo puede filtrar información confidencial de otros usuarios sin querer, como ocurrió con el chatbot surcoreano Lee Luda. Los modelos de IA generativa podrían incluso infringir directamente las políticas de privacidad de la empresa, como decir falsamente a los usuarios que tienen acceso limitado a sus datos y, por lo tanto, cometer fraude.

La lista de objetivos de degradación suele ser larga y va desde los objetivos descritos anteriormente hasta daños como la infracción de la propiedad intelectual, las infracciones contractuales y mucho más. A medida que los sistemas de IA generativa se desplieguen en un número creciente de entornos, desde la atención médica hasta el legal y las finanzas, es probable que esa lista se alargue.

Ataques a la IA generativa

Una vez que hayamos determinado la composición del equipo rojo, las responsabilidades y los objetivos de degradación asociados para guiar las pruebas, comienza la parte divertida: atacar el modelo.

Hay una gran variedad de métodos que pueden utilizar los equipos rojos. En Luminos.Law, dividimos nuestros planes de ataque en dos categorías: manuales y automatizados. Nos centraremos principalmente en los ataques manuales, pero vale la pena señalar que una gran cantidad de investigaciones y emergente herramientas hacer de los ataques automatizados una parte cada vez más importante del equipo rojo. También hay muchos conjuntos de datos de código abierto diferentes que se pueden utilizar para probar estos sistemas. ( Este es un artículo que proporciona una visión general de muchos de esos conjuntos de datos.)

Una estrategia de ataque eficaz implica mapear cada objetivo según los ataques que creemos que tienen más probabilidades de tener éxito, así como los vectores de ataque a través de los que planeamos probar el sistema. Los vectores de ataque pueden ser «directos», que consisten en interacciones relativamente cortas y directas con el modelo, mientras que otros implican ataques más complejos denominados inyección inmediata indirecta, en los que pueden contener código o instrucciones malintencionadas en sitios web u otros archivos a los que el sistema pueda tener acceso.

Si bien la siguiente lista no incluye todas las técnicas que utilizamos, sí ofrece un ejemplo de cómo nos gusta abordar los ataques durante los equipos rojos:

  • Inyección de código. Usamos códigos de computadora o mensajes de entrada que se parecen a los códigos de computadora para que el modelo genere resultados dañinos. Este método es uno de nuestros favoritos precisamente porque tiene una tasa de éxito sorprendentemente alta, como grupo de investigadores demostrado recientemente.
  • Agotamiento del contenido. Utilizamos grandes volúmenes de información para abrumar el modelo.
  • Hipotéticos. Damos instrucciones al modelo para que cree la salida basándose en instrucciones hipotéticas que, de otro modo, activarían los controles de contenido.
  • Pros y contras. Preguntamos por los pros y los contras de los temas controvertidos para generar respuestas dañinas.
  • Juego de rol. Ordenamos que la modelo asuma el papel de una entidad que normalmente se asocia a declaraciones negativas o controvertidas y, luego, incitamos a la modelo a crear contenido dañino.

Hay, por supuesto, docenas de estrategias de ataque para los sistemas de IA generativa, muchas de las cuales, de hecho, ya existen durante años. La metodología de ataque de crowdsourcing, siempre que sea posible, también es una buena práctica cuando se forma equipo en red, y hay varios recursos en línea diferentes que los equipos rojos pueden utilizar como inspiración, como repositorios específicos de Github donde los evaluadores refinan y comparten los ataques exitosos. La clave para que las pruebas sean eficaces está en mapear cada estrategia según el objetivo de degradación, el vector de ataque y, por supuesto, tomar abundantes notas para poder capturar los ataques exitosos y estudiarlos más adelante.

Juntándolo todo

La IA generativa de equipos rojos es complicada, ya que normalmente implica a diferentes equipos, plazos que compiten y muchos tipos de experiencia diferentes. Pero las dificultades a las que se enfrentan las empresas no están relacionadas solo con formar el equipo rojo, alinear las principales responsabilidades, establecer objetivos de degradación claros e implementar las estrategias de ataque correctas. Vemos un puñado de otros problemas que a menudo hacen subir a las empresas.

Documentación

El éxito de la formación de equipos rojos a menudo implica probar cientos de estrategias de ataque. Si se utilizan ataques automatizados, esa cifra puede ascender a miles. Con tantas variables, estrategias de pruebas, miembros del equipo rojo y más, puede resultar difícil hacer un seguimiento de la información que se genera y garantizar que los resultados de las pruebas son digeribles. Tener una orientación clara no solo sobre cómo hacer las pruebas, sino también sobre cómo documentar cada prueba es una parte fundamental, aunque a menudo se pasa por alto, del proceso de trabajo en equipo en rojo.

Si bien cada organización y equipo rojo es diferente, hemos resuelto este problema para nuestro bufete de abogados creando nuestras propias plantillas personalizadas para guiar nuestras pruebas y presentar nuestro análisis final a nuestros clientes. Saber que la documentación final se alinea con la información capturada durante las pruebas en tiempo real hace que el proceso de trabajo en equipo en rojo sea mucho más eficaz.

Con tanta información confidencial que se genera entre los evaluadores y los equipos, entender dónde y cuándo hacer valer el privilegio legal es otra consideración que a menudo se pasa por alto, pero es una consideración importante. A menudo vemos que las posibles responsabilidades se discuten abiertamente en lugares como Slack, lo que hace que las partes adversarias puedan descubrir esa información si se produce una supervisión externa, como una investigación regulatoria o una demanda.

Lo último que quieren las empresas es aumentar sus riesgos porque hacían equipo rojo con sus modelos. Involucrar a los abogados y determinar cuidadosamente dónde se puede comunicar la información sobre los resultados de las pruebas y cómo es una consideración clave.

Qué hacer con las vulnerabilidades

Tener planes claros para abordar las vulnerabilidades que descubren los esfuerzos de formación de equipos en rojo es otra parte central, pero que a menudo se pasa por alto, del proceso de formación de equipos en rojo. ¿Quién de los equipos de ciencia de productos o datos es responsable de tomar medidas? ¿Se reúnen con el equipo rojo directamente o a través de un intermediario? ¿Intentan corregir las vulnerabilidades a medida que se producen equipos rojos o deberían esperar hasta el final del proceso?

Estas preguntas, y muchas más, deben abordarse antes de que se produzca la formación de equipos rojos; de lo contrario, la detección de vulnerabilidades en el modelo probablemente genere mucha confusión.

Este artículo solo ofrece una visión general de alto nivel de todas las consideraciones que se tienen en cuenta para que la IA generativa de Red Teaming tenga éxito. Es una de las formas más eficaces de gestionar los complejos riesgos de la tecnología y, por esa razón, los gobiernos acaban de empezar a darse cuenta de los beneficios del trabajo en equipo rojo. Las empresas que apuestan fuerte por la IA generativa deberían comprometerse igualmente con el trabajo en equipo rojo.