
Los investigadores de ciberseguridad revelaron un defecto de clic cero en el agente de búsqueda profundo de Operai Chatgpt. Esto permite a un atacante filtrar datos confidenciales de la bandeja de entrada de Gmail en un correo electrónico creado sin acciones del usuario.
La nueva clase de ataques tiene el nombre en código SHADOWLEAK por Radware. Tras la divulgación responsable el 18 de junio de 2025, la cuestión fue abordada por OpenAI a principios de agosto.
«Este ataque utiliza una inyección rápida indirecta que se puede ocultar en el correo electrónico HTML (fuentes pequeñas, texto blanco sobre blanco, trucos de diseño), por lo que los usuarios no notan los comandos, pero los agentes aún los leerán y seguirán».
«A diferencia de las investigaciones anteriores que dependen de la representación de imágenes del lado del cliente para activar fugas, este ataque filtra los datos directamente de la infraestructura en la nube de OpenAI, lo que lo hace invisible para la defensa local o empresarial».

Iniciado por OpenAI en febrero de 2025, Deep Research es una característica de agente integrada en ChatGPT que lleva a cabo investigaciones de varios pasos en Internet para producir informes detallados. Durante el año pasado, se han agregado análisis similares a otros chatbots de IA (IA) populares, como Google Gemini y Prperxity.
En los ataques detallados por Radware, los actores de amenaza envían correos electrónicos aparentemente inofensivos a las víctimas. Esto incluye instrucciones invisibles que utilizan texto blanco sobre blanco o trucos de CSS, instruyendo a los agentes a recopilar información personal de otros mensajes que existen en su bandeja de entrada y extenderla a servidores externos.

Entonces, cuando la víctima insta a una investigación profunda de ChatGPT a analizar los correos electrónicos de Gmail, el agente analizará la inyección rápida indirecta en la herramienta de correo electrónico y uso malicioso. Open () para enviar detalles en formato de codificación Base64 al atacante.
«Hemos creado un nuevo aviso que instruye explícitamente a los agentes que usen la herramienta Browser.open () con URL maliciosas», dice Radware. «La estrategia final y exitosa fue instruir a la PII extraída que se agregará a la URL para codificarla en Base64. Esta acción se ensambló como una medida de seguridad necesaria para proteger los datos durante la transmisión».
Si bien la prueba de concepto (POC) se basa en los usuarios que habilitan la integración de Gmail, los ataques se pueden extender a cualquier conector compatible con ChatGPT, como Box, Dropbox, GitHub, Google Drive, Hubspot, Microsoft Outlook, Concepts o SharePoint.
A diferencia de los ataques del lado del cliente, como Agentflayer y Echoleak, la filtración de queratina observada en Shadowleak ocurre directamente dentro del entorno de la nube de OpenAI y evita los controles de seguridad tradicionales. Esta falta de visibilidad es el aspecto principal que lo distingue de otras vulnerabilidades de inyección rápida indirecta.
Chatgpt ayudó a resolver Captchas
Esta divulgación se debe a que la plataforma de seguridad de IA SPLX demuestra que puede usar un aviso inteligente expresado junto con la adicción al contexto para resolver los captchas basados en imágenes diseñados para destruir las barandillas incorporadas de los agentes de ChatGPT y demostrar que los usuarios son humanos.

Este ataque esencialmente implica abrir un chat de chatgpt-4o regular y persuadir a un modelo de idioma grande (LLM) para que planee resolver lo que se explica como una lista de captchas falsos. El siguiente paso es abrir un nuevo chat de agente de chatgpt y pegar la conversación anterior con LLM, afirmando que esta es una «discusión anterior».
«El truco era reconfigurar la captura como una ‘falsa’ y crear una conversación que el agente ya había acordado continuar. Heredando ese contexto, no pudimos ver la bandera roja habitual», dijo el investigador de seguridad Dorian Schultz.
«Los agentes resolvieron no solo capturas simples, sino capturas basadas en imágenes. Ajustaron el cursor para imitar el comportamiento humano. El atacante reconstruye los controles reales como» falsos «para resaltar la consistencia contextual, la higiene de la memoria y la necesidad de equipos rojos en curso».
Source link
