
Los investigadores de ciberseguridad han descubierto técnicas de jailbreak para evitar la barandilla ética construida por OpenAI en el último modelo de idioma líder (LLM) GPT-5, creando instrucciones ilegales.
La plataforma de seguridad de inteligencia artificial genérica (AI) Neural Trust dijo que combinaba una técnica conocida llamada Cámara de Echo con dirección narrativa para engañar al modelo para generar respuestas no deseadas.
«Utilizamos las cámaras de eco para sembrar y reforzar el contexto de conversaciones tóxicas sutiles y guiar a nuestros modelos con narración de poca luz que evita señales de intención explícitas», dijo el investigador de seguridad Marti Jorda. «Esta combinación ajusta el modelo para su propósito, minimizando las pistas de rechazo desencadenables».
Echo Chamber es un enfoque de jailbreak detallado por la compañía en junio de 2025 como una forma de engañar a LLM para generar respuestas a temas prohibidos que usan referencias indirectas, dirección semántica e inferencia de múltiples pasos. En las últimas semanas, este método se ha emparejado con una técnica de jailbreak de múltiples vueltas llamada Cressendo para evitar la defensa de Xai Grok 4.
En el último ataque contra GPT-5, los investigadores descubrieron que es posible obtener contenido de procedimiento dañino al alimentar los sistemas de IA como entrada para proporcionar un conjunto de palabras clave, usar esas palabras para crear oraciones, luego expandir esos temas y enmarcarlo en el contexto de la historia.
Por ejemplo, en lugar de pedirle directamente al modelo que solicite instrucciones relacionadas con la creación de un cóctel Molotov (se espera que el modelo lo rechace), el sistema AI recibe un aviso como:
El ataque se juega en forma de un bucle de «persuasión» dentro del contexto de la conversación, pero toma el modelo lentamente en el camino que minimiza el desencadenante del rechazo y permite que la «historia» avance sin emitir un mensaje malicioso explícito.

«Esta progresión ilustra el ciclo persuasivo de la cámara de eco en el trabajo, con un contexto envenenado que resonaba y se reforzaba gradualmente por la continuidad de la narrativa», dijo Jorda. «Los ángulos de narración de historias actúan como capas de camuflaje y los transforman en solicitudes elaboradas, almacenando continuamente directamente».
«Esto refuerza los riesgos importantes. Las palabras clave o los filtros basados en la intención no son suficientes en un entorno múltiple que le permite envenenar gradualmente el contexto y reverberarse bajo la apariencia de continuidad».
Esta divulgación ha descubierto que, a medida que se han producido las pruebas del SPLX de GPT-5, el modelo crudo y desprotegido es «casi inutilizable de la caja de la empresa» y que el GPT-4O supera al GPT-5 en su punto de referencia curado.
«Incluso con el GPT-5, todas hubo nuevas actualizaciones de ‘inferencia’, cayendo en el truco de la lógica básica hostil», dijo Dorian Granosha. «Si bien el último modelo de OpenAI es indudablemente impresionante, la seguridad y la alineación continúan sin precedentes».
Los resultados muestran que los agentes de IA y los LLM basados en la nube obtienen tracción en entornos críticos, exponiendo entornos empresariales a una amplia gama de riesgos, como la inyección rápida (también conocida como la rápida aviso) y los jailbreaks que pueden conducir al robo de datos y otras consecuencias graves.
De hecho, la compañía de seguridad de IA Zenity Labs ha detallado que puede armarse conectores ChatGPT como Google Drive para activar ataques de clic cero y activar claves de agencias de expansión como claves API que están equipadas con equipos de chatbot de IA, como claves API que se almacenan en servicios de almacenamiento de nubes.
El segundo ataque también utiliza un boleto JIRA malicioso para eliminar secretos del repositorio o sistema de archivos local, incluso si es cero clic, si el editor de código AI está integrado con una conexión de protocolo de contexto del modelo JIRA (MCP). Los ataques terceros y finales apuntan a Microsoft Copilot Studio con correos electrónicos especialmente diseñados que contienen inyección rápida, engañando a los agentes personalizados para proporcionar datos valiosos a los actores de amenaza.
«El ataque de clic cero de Agent Flyer es un subconjunto de la misma fuga de eco primitiva», dijo el director de AIM Labs, Itay Ravia, a Hacker News en un comunicado. «Estas vulnerabilidades son esenciales y podemos ver muchos de ellas en agentes populares porque tenemos una mala comprensión de las dependencias y la necesidad de barandillas.

Estos ataques son las últimas manifestaciones de cómo las inyecciones indirectas rápidas pueden afectar negativamente los sistemas de IA generativos y la fuga al mundo real. También destaca cómo la conexión de los modelos de IA a los sistemas externos aumenta la superficie de ataque potencial y aumenta exponencialmente la forma en que se introducen vulnerabilidades de seguridad o datos no confiables.
«Si bien medidas como el filtrado de salida estricto y los equipos rojos regulares pueden ayudar a reducir el riesgo de ataques rápidos, la forma en que estas amenazas han evolucionado junto con la tecnología de IA plantean un desafío más amplio en el desarrollo de la IA. Implemente características o características que equilibren la confianza de los sistemas de IA con la situación del informe de seguridad de acrobacias para H1 2025.»

A principios de esta semana, un grupo de investigadores de la Universidad de Tel-Aviv, Technion y SafeBreach mostró cómo se puede usar la inyección rápida para secuestrar sistemas de hogares inteligentes utilizando la IA Gemini de Google, lo que permite a los atacantes apagar las luces conectadas a Internet, abrir persianas inteligentes y activar las calderas, entre otras cosas, mediante invitaciones en calendarios de adiciones.
Otro ataque con clic cero detallado por Straiker ha dado un nuevo giro a la inyección rápida, con la capacidad de aprovechar de forma independiente la «sobreautonomía» y la «acción, pivote y intensidad» de las capacidades de los agentes de IA para acceder y usarlo para filtrar datos.
«Estos ataques evitan los controles clásicos: sin clics del usuario, sin archivos adjuntos maliciosos, sin robo de calificación». «Los agentes de IA no solo proporcionan enormes beneficios de productividad, sino que también traen nuevas superficies de ataque silencioso».
Source link
