fbpx

Jailbreak: Nuevos casos de uso no tan benignos para ChatGPT!

Se han desarrollado una forma sistemática de probar LLM, incluido el popular “GPT-4” de OpenAI, usando modelos de IA “adversarios”!

Cuando la junta directiva de OpenAI despidió repentinamente al CEO de la compañía hace poco tiempo, generó especulaciones de que los miembros de la junta estaban desconcertados por el ritmo vertiginoso del progreso en Inteligencia Artificial (IA) y los posibles riesgos de intentar comercializar la tecnología demasiado rápido. Robust Intelligence, una startup fundada en el año 2020 para desarrollar formas de proteger los sistemas de IA de ataques, ha señalado que algunos riesgos existentes necesitan más atención.

 

Vale la pena destacar que en colaboración con investigadores de la Universidad de Yale, Robust Intelligence, ha desarrollado una forma sistemática de probar modelos de lenguaje grandes (LLM), incluido el popular “GPT-4” de OpenAI, usando modelos de Inteligencia Artificial “adversarios” para poder descubrir indicaciones que consiguen que los modelos de lenguaje se comporten mal y hacer una especie de jailbreak!

 

Inyección indirecta de indicaciones
Inyección indirecta de indicaciones

 

Jailbreak: Lo que debe conocer acerca de lo que pueden  hacer con ChatGPT 

 

Mientras se desarrollaba el drama en OpenAI, los investigadores advirtieron a la reconocida compañía de IA sobre la vulnerabilidad. Señalan que todavía no han recibido respuesta.

 

“Esto significa que hay un problema de seguridad sistemático, que simplemente no se aborda ni se analiza. Lo que se ha descubierto aquí es un enfoque sistemático para atacar cualquier modelo de lenguaje grande”, Ha indicado Yaron Singer, director ejecutivo de Robust Intelligence y profesor de informática en la Universidad de Harvard.  

 

Según se pudo conocer, el portavoz de OpenAI, Niko Felix, dice que la empresa está “agradecida” a los investigadores por compartir sus descubrimientos.

 

Niko Felix ha señalado “Siempre estamos trabajando para que nuestros modelos sean más seguros y robustos contra ataques adversarios, manteniendo al mismo tiempo su utilidad y rendimiento”. 

 

Según se informa, el nuevo “jailbreak” implica el uso de sistemas de IA adicionales para generar y evaluar indicaciones mientras el sistema intenta hacerlo funcionar enviando solicitudes a una API. Cabe acotar que el truco es sólo el último de una serie de ataques que parecen resaltar debilidades fundamentales en grandes modelos de lenguaje y, así mismo, sugieren que los métodos existentes para protegerlos son muy insuficientes.

 

“Definitivamente estoy preocupado por la aparente facilidad con la que podemos romper tales modelos”, ha comentado Zico Kolter, profesor de la Universidad Carnegie Mellon cuyo grupo de investigación demostró en el mes de agosto una brecha de vulnerabilidad en grandes modelos de lenguaje. 

 

Kolter ha mencionado que algunos modelos ahora poseen salvaguardas que tienen la posibilidad de bloquear ciertos ataques pero, ha añadido que las vulnerabilidades son inherentes a la forma en que funcionan estos modelos y, por lo tanto, es difícil defenderse contra ellas. Así mismo, Kolter ha señalado que cree que se debe comprender que este tipo de interrupciones son inherentes a muchos LLM. Y hasta el momento, no se tiene una forma clara bien establecida de prevenirlas.

 

LLMs
LLMs

 

Es crucial mencionar que en los meses que siguieron al lanzamiento de ChatGPT de OpenAI, descubrir nuevos métodos de jailbreak se convirtió en un pasatiempo popular para los usuarios traviesos, así como para aquellos interesados ​​en la seguridad y confiabilidad de los sistemas de Inteligencia Artificial (IA). Decenas de nuevas empresas ahora se encuentran  construyendo prototipos y productos completos sobre API de modelos de lenguaje de gran tamaño. OpenAI indicó en su primera conferencia de desarrolladores en el mes de noviembre que más de 2 millones de desarrolladores están usando sus API.

 

Estos modelos sencillamente predicen el texto que debe seguir a una entrada determinada pero, se entrenan con grandes cantidades de texto, de la web y así mismo de otras fuentes digitales, utilizando enormes cantidades de chips de computadora, durante un período de muchas semanas hasta incluso meses. Según  se informa, con suficientes datos y entrenamiento, los modelos de lenguaje exhiben habilidades de predicción similares a las de los sabios, respondiendo a una sorprendente variedad de entradas con información coherente y aparentemente pertinente.

 

Los modelos también exhiben sesgos aprendidos de sus datos de entrenamiento y tienden a fabricar información cuando la respuesta a una pregunta es menos sencilla. Sin salvaguardias, tienen la posibilidad de ofrecer consejos a la gente sobre cómo hacer cosas como obtener drogas o fabricar bombas. Ahora bien, para mantener los modelos bajo control, las empresas detrás de ellos utilizan el mismo método empleado para hacer que sus respuestas sean más coherentes al mismo tiempo que más precisas. Esto implica que los humanos califiquen las respuestas del modelo y usen esa retroalimentación para ajustar el modelo para que sea menos probable que se comporte mal.

 

Vicios a nivel de AI
Vicios a nivel de AI

 

Robust Intelligence brindó varios ejemplos de jailbreak que eluden dichas salvaguardas. No todos trabajaron en ChatGPT, el chatbot construido sobre GPT-4 pero, varios sí lo hicieron, incluido uno para generar mensajes de phishing y otro para producir ideas para ayudar a un actor malicioso a permanecer oculto en una red informática del gobierno.

 

Un método parecido fue desarrollado por un grupo de investigación dirigido por Eric Wong, profesor asistente de la Universidad de Pensilvania. El de Robust Intelligence y su equipo implica mejoras adicionales que permiten al sistema generar jailbreak con la mitad de intentos.

 

Brendan Dolan-Gavitt, profesor asociado de la Universidad de Nueva York que estudia seguridad informática y aprendizaje automático, ha manifestado que la nueva técnica revelada por Robust Intelligence deja en evidencia que el ajuste humano no es una forma perfecta o la más idónea de proteger los modelos contra ataques.

 

Por su parte, Dolan-Gavitt comentó que las empresas que construyen sistemas sobre modelos de lenguajes grandes como GPT-4 deberían emplear medidas de seguridad adicionales.

 

“Necesitamos asegurarnos de diseñar sistemas que utilicen LLM de manera que los jailbreaks no permitan a usuarios malintencionados acceder a cosas que no deberían”, ha afirmado Dolan-Gavitt. 

 

Deja un comentario