Hablemos sobre los hallazgos del AI Red Teaming de Microsoft

A medida que la IA generativa se ha adoptado en múltiples ámbitos, la creación de los famosos AI red teams se ha convertido en una práctica fundamental para evaluar la seguridad de esta tecnología.

¡Espera! Antes de continuar, es esencial definir qué hace el red teaming de IA. Este se especializa en ir más allá de los puntos de referencia de seguridad, emulando ataques del mundo real contra sistemas de extremo a extremo. Claramente, todo se basa en el uso de la inteligencia artificial.

Recientemente, el AI Red Teaming de Microsoft publicó un documento donde se resumen las principales lecciones aprendidas de la experiencia del equipo luego de probar más de 100 productos de IA generativa (Gen AI).

Aquí, podemos conocer la importancia de ir más allá de los puntos de referencia de seguridad tradicionales para abordar efectivamente los riesgos de la IA en el mundo real. Esto sin dejar a un lado la experiencia humana y el trabajo en equipo, incluso en esta era de automatización.

¡Qué interesante!, ¿no crees? Si no quieres perderte ni un solo detalle de estos hallazgos, continúa leyendo nuestro blog.

Primero abordemos algunos conceptos clave

Antes de hablar sobre los hallazgos, queremos dejarte un pequeño glosario con algunos términos clave que te ayudarán a entender mejor todos los aprendizajes. Conozcamos cuáles son:

1. AI Red Teaming (AIRT): Simulación de ataques cibernéticos a sistemas de IA para evaluar su resistencia y detectar vulnerabilidades.
2. Ontología del modelo de amenazas: Este marco proporciona una estructura para analizar y comprender las vulnerabilidades de los sistemas de IA, considerando tanto los métodos de ataque como sus posibles consecuencias.
3. Impactos en la seguridad: Preocupaciones de seguridad tradicionales como manipulación de datos, volcado de credenciales, junto con ataques específicos de IA.
4. Daños de la IA responsable (RAI): Contenido dañino generado por sistemas de IA. Estos parámetros se definen de acuerdo con el Microsoft’s Responsible AI Standard.

Te presentamos las ocho lecciones del AI Red Teaming

Luego de las pruebas impuestas sobre las 100 herramientas de IA generativa, el Red Teaming de Microsoft nos deja ocho lecciones importantes a tener en cuenta:

1. Comprender qué puede hacer el sistema y dónde se aplica

El primer paso en estas operaciones es determinar qué vulnerabilidades se van a abordar. Luego, es esencial analizar los posibles impactos posteriores, ya que permiten obtener hallazgos útiles vinculados a los riesgos del mundo real.

Asimismo, el tamaño y la capacidad del modelo afectan los tipos de ataques a los que se puede ser vulnerable.

Contenido relacionado: AI washing: cuando la IA resulta ser un engaño  

Por ejemplo, un modelo de lenguaje más grande puede ser más susceptible a ataques de codificación avanzada debido a sus capacidades mejoradas. Es por esto, que el mismo modelo puede presentar distintos riesgos según el contexto en el que se utilice.

2. No es necesario calcular gradientes para romper un sistema de IA

Realmente los ataques sofisticados basados en gradientes (exploits sofisticados que aprovechan las vulnerabilidades matemáticas para manipular los procesos de optimización) no siempre son necesarios para vulnerar un sistema de IA. Muchas veces las indicaciones sencillas son más que suficientes.

De esta manera, resulta esencial contar con una mentalidad a nivel de sistema, en lugar de enfocarse únicamente en el modelo de IA.

3. El AI Red Teaming no es una evaluación comparativa de seguridad

Hoy en día, los sistemas de IA introducen nuevas vulnerabilidades que no son capturadas por los parámetros de seguridad existentes, los cuales suelen centrarse en riesgos ya conocidos.

Por ende, es necesario contar con un nuevo enfoque donde se evalúen los riesgos de la IA, las capacidades únicas de esta tecnología y así prepararse para los daños que la inteligencia artificial puede causar.

4. La automatización puede ayudar a cubrir una mayor parte del panorama de riesgos

Para analizar eficazmente distintos escenarios de riesgos y evaluar las probabilidades de los modelos de IA, es crucial utilizar herramientas de automatización como PyRIT (el marco de código abierto de Microsoft).

Esta plataforma, cuenta con un conjunto de datos rápidos, estrategias de ataque automatizadas y mecanismos de puntuación.

5. El elemento humano del AI Red Teaming es crucial

Sin duda alguna, el trabajo en equipo requiere de criterio humano y creatividad para distintas tareas en las que es necesario utilizar la inteligencia emocional para comprender los impactos que estas pueden tener en los usuarios reales.

Sin embargo, los miembros del AI Red Team pueden estar expuestos a contenido inquietante, por lo que es necesario siempre velar por su bienestar mental.

6. Los daños causados por la IA responsable (RAI) son generalizados pero difíciles de medir

Los RAI pueden ser consecuencia tanto de acciones adversas deliberadas como de acciones no intencionales de los usuarios. Es por esto, que esos daños son subjetivos y mucho más difíciles de medir en comparación con las vulnerabilidades de seguridad tradicionales.

Aquí, resulta esencial que los Red Teams, amplíen las pruebas más allá de evaluaciones existentes y consideren acciones específicas al investigar el RAI.

7. Los LLM amplifican los riesgos de seguridad existentes e introducen otros nuevos

La integración de GenIA en las aplicaciones introduce nuevas vulnerabilidades, pero no se deben olvidar los riesgos de seguridad existentes. Aunque los modelos de IA han incrementado la superficie de ataque, se necesitan defensas tanto a nivel de sistema como a nivel del modelo.

Contenido relacionado: El auge de la IA generativa tiene un precio y la Tierra lo está pagando  

8. El trabajo de proteger los sistemas de IA nunca estará completo

Al vivir en un mundo que está avanzando constantemente, no podemos asegurar ninguna garantía para eliminar los riesgos de la IA solamente con soluciones técnicas. Los factores económicos y los ciclos de reparación, son cruciales para definir una buena estrategia de protección.

Entonces, ¿que podemos concluir de todo esto?

Sin duda alguna, los AI Red Teaming hacen parte de un campo emergente que requiere una constante adaptación. Por esta razón, es crucial que las empresas cuenten con equipo que se centre unicamente en la prevención y mitigación de las amenazas por el uso de herramientas de IA generativa.

Luego de revisar estas lecciones, ¿cuáles puntos crees que son los más importantes para prevenir estas amenazas? ¡Te leemos en los comentarios!