La vulnerabilidad ChatGPhish convierte los resúmenes web de ChatGPT en superficies de phishing

Investigadores de ciberseguridad han revelado detalles de una vulnerabilidad en OpenAI ChatGPT. Esta vulnerabilidad aprovecha la confianza implícita de un asistente de inteligencia artificial (IA) en los enlaces e imágenes de Markdown para activar una inyección rápida y abrir la puerta a ataques de phishing.

Permiso Security ha denominado a la tecnología el nombre en código ChatGPhish.

«El procesador de respuestas chatgpt.com confía en los enlaces de Markdown y en las URL de imágenes de Markdown generadas a partir de páginas de terceros que el Asistente acaba de resumir. Recupera automáticamente estas imágenes y muestra esos enlaces como elementos activos en los que se puede hacer clic dentro de la interfaz de usuario confiable del Asistente», dijo el investigador de seguridad Andi Ahmeti en un informe compartido con The Hacker News.

En un escenario de ataque hipotético, un atacante malicioso podría agregar una pequeña carga útil a una página web arbitraria, y la víctima podría luego solicitar a ChatGPT que resumiera, lo que podría filtrar detalles de IP, agente de usuario y referencia cuando las imágenes incrustadas en la página alojada por el atacante se recuperan automáticamente cuando se presenta la respuesta.

Además, un enlace Markdown malicioso podría presentarse como un elemento en vivo en el que se puede hacer clic dentro de la respuesta del Asistente, proporcionando una alerta de seguridad de estilo sistema mucho más falsa y proporcionando un código QR del depósito S3 del atacante para engañar a la víctima para que lo escanee a través de un dispositivo móvil, evitando efectivamente los filtros de URL del escritorio y los controles de seguridad empresarial.

Los últimos hallazgos muestran cómo los resúmenes pueden aparecer como superficies hostiles. A principios de marzo, Permiso también reveló que los correos electrónicos controlados por atacantes que contienen instrucciones especialmente diseñadas, cuando se condensan con Microsoft Copilot, podrían afectar la salida mediante inyección cruzada (XPIA) o inyección indirecta.

Lo que hace que ChatGPhish sea una técnica de ataque notable no es la inyección rápida en sí, sino la forma en que sigue las instrucciones incrustadas en las páginas web y se las muestra al usuario como parte de un resumen.

En otras palabras, una página web normal resumida en ChatGPT es suficiente para mostrar enlaces de phishing, advertencias de cuentas falsificadas, imágenes remotas y códigos QR directamente dentro de una interfaz de IA confiable. A medida que las organizaciones utilizan cada vez más ChatGPT para investigaciones y resúmenes, esta vulnerabilidad significa que las páginas web maliciosas que los empleados solicitan a los chatbots de IA podrían contener una carga útil que convierte a ChatGPT en una superficie de phishing.

«El paso del correo electrónico a los navegadores ha ampliado significativamente la superficie de ataque potencial. Los usuarios ya no tienen que abrir archivos adjuntos maliciosos o interactuar con mensajes sospechosos», dijo Permiso. «Simplemente resumir una página durante la actividad de navegación normal puede introducir instrucciones controladas por el atacante en el contexto del modelo y, en última instancia, en la respuesta representada».

La divulgación se produce después de que Adversa AI documentara dos técnicas de ataque, con nombres en código SymJack y TrustFall, dirigidas a agentes de codificación de IA y CLI de codificación de agentes que permiten a los atacantes ejecutar código y comprometer máquinas enteras.

El investigador de seguridad Ronnie Utevsky dijo que SymJack es un «patrón de ataque único que permite a un repositorio malicioso ejecutar código de forma remota a través de un asistente de codificación de IA». «Se engaña al agente para que haga una copia de un archivo aparentemente inofensivo, sobrescriba en secreto su propia configuración y ejecute el código del atacante con privilegios de usuario completos en el siguiente reinicio».

Específicamente, un repositorio trampa engaña al agente para que copie archivos aparentemente inofensivos. El destino es un enlace simbólico que apunta a la propia configuración del agente y la carga útil del atacante se escribe en la configuración. En el siguiente reinicio, se genera un servidor de Protocolo de contexto de modelo (MCP) malicioso que ejecuta código arbitrario con privilegios de usuario completos.

TrustFall, por otro lado, puede ofrecer configuraciones que autorizan e inician automáticamente servidores MCP con un ataque de ejecución remota de código con un solo clic a través de un repositorio malicioso, sin requerir la aprobación explícita del usuario ni la invocación de herramientas por parte del agente.

En otras palabras, para llevar a cabo un ataque, un atacante sólo necesita crear un repositorio que contenga un servidor MCP malicioso y ajustes de configuración que autoricen automáticamente su ejecución. Cuando un desarrollador clona o abre un repositorio en una herramienta de codificación de IA y presiona «Entrar» en el mensaje de confianza de la carpeta, la herramienta de codificación de IA iniciará un código controlado por el atacante con todos los privilegios del sistema del desarrollador.

«En el momento en que la víctima clona el repositorio, ejecuta Claude y hace clic en el cuadro de diálogo genérico (Sí, confío en esta carpeta), el servidor MCP se inicia como un proceso del sistema operativo nativo con todos los privilegios de usuario», señala Adversa AI. «La carga útil se ejecuta al iniciar el servidor, antes de llamar a la herramienta, sin ningún mensaje adicional».

Este hallazgo es consistente con el descubrimiento de numerosos vectores de ataque contra modelos de IA en los últimos meses.

Utilizar un nuevo enfoque de jailbreak llamado Aprendizaje involuntario en contexto (IICL) que «explota la tensión entre el aprendizaje en contexto (ICL) y la coordinación de seguridad» para evitar las limitaciones de seguridad de GPT-5.4. Las barreras de seguridad de LLM se pueden eludir si el usuario engaña al modelo para que tenga una conversación de varios turnos. «La evaluación de múltiples turnos es importante por una razón: es donde realmente reside el atacante», dijo Cisco. «Los adversarios reales iteran. Reconfiguran denegaciones, dividen tareas en turnos, adoptan personajes y escalan con el tiempo. Los puntos de referencia de un solo turno no muestran eso». Vulnerabilidad antrópica del código Claude. Aprovecha los cambios de configuración a nivel de usuario en «~/.claude.json» para reescribir el punto final MCP a través de un paquete npm malicioso, colocando a un atacante entre Claude Code y un servidor MCP basado en OAuth, lo que permite a un atacante malicioso obtener tokens utilizados para el acceso SaaS descendente. Aunque el mecanismo de actualización remota hace que la habilidad OpenClaw parezca benigna tras la instalación, es posible que un atacante influya en el agente a través del archivo del espacio de trabajo indicando al usuario que agregue instrucciones específicas al archivo HEARTBEAT.md durante la configuración de la habilidad. En los correos electrónicos de phishing se utiliza texto oculto con contenido extraído de boletines legítimos o novelas románticas para confundir a los sistemas de seguridad de correo electrónico basados en inteligencia artificial y marcar el mensaje como benigno. Una vulnerabilidad en la extensión del navegador Chrome de Claude, conocida como Claude Bleed, podría permitir que las extensiones sean secuestradas y engañadas para que un asistente de inteligencia artificial realice acciones de agente activo en su nombre, incluso si no tienen permisos especiales. «La falla surge de las instrucciones en el código de la extensión que permiten que los scripts que se ejecutan en el navegador de origen se comuniquen con el LLM de Claude, pero no verificaron quién estaba ejecutando los scripts», dijo LayerX. «Como resultado, cualquier extensión puede invocar un script de contenido (que no requiere privilegios especiales) para emitir comandos a la extensión Claude». La investigación de Cisco descubrió que el texto contradictorio representado como una imagen, un ataque conocido como inyección tipográfica rápida, podría usarse para evitar el filtro de seguridad del Vision Language Model (VLM). «Si el modelo no pudo leer la imagen original (fuente pequeña, desenfoque grande, rotación), puede ser posible recuperar el contenido semántico de la representación interna del modelo sin restaurar la legibilidad visual humana a través de perturbaciones limitadas», dijo Cisco. «Esto significa que un atacante puede enviar instrucciones completamente legibles a un VLM objetivo mientras crea una imagen que parece ruido o distorsión ilegible para un filtro de contenido basado en OCR». Un conjunto de vulnerabilidades en el Kernel Semántico de Microsoft (CVE-2026-25592 y CVE-2026-26030). La inyección rápida puede convertirse en una ejecución remota de código a nivel de host. Se utiliza un ataque de inyección rápida de Neural Exec y la funcionalidad de anulación de derecha a izquierda de Unicode para evitar los filtros de entrada/salida y las barreras de seguridad de Apple en el modelo local de Apple Intelligence, y engañar al LLM para que produzca los resultados dirigidos por el atacante. Este problema se resuelve en iOS 26.4 y macOS 26.4. La vulnerabilidad de inyección de aviso indirecto, cuyo nombre en código es WebPromptTrap, afecta a BrowserOS, un navegador de agente de código abierto. La vulnerabilidad engaña a los usuarios para que aprueben el paso de aprobación a través de un resumen de IA que se genera al procesar artículos de apariencia legítima que contienen instrucciones ocultas. Este problema se solucionó en la versión 0.32.0 de BrowserOS. Una auditoría del ecosistema de habilidades de los agentes en ClawHub y Skill.sh encontró que el 13,4 % de 3984 habilidades (534 en total) tenían al menos un problema de seguridad crítico, incluida la distribución de malware, ataques de inyección rápida y divulgación de secretos. Aproximadamente 1.467 habilidades tienen al menos una falla de seguridad, que va desde el manejo de claves API codificadas y credenciales inseguras hasta la exposición de contenido de terceros. Dos ataques dirigidos a NemoClaw, la pila de referencia de código abierto de NVIDIA para proteger a los agentes de IA de OpenClaw, filtran datos de OpenClaw utilizando configuraciones predeterminadas de sandbox a través de repositorios maliciosos de GitHub o paquetes npm.

A medida que los modelos de IA de vanguardia continúan evolucionando y madurando, los atacantes experimentan cada vez más con la tecnología para crear malware con capacidades adicionales para adaptar dinámicamente su comportamiento para evadir la detección. También transfiere decisiones a LLM para ver si el entorno comprometido es valioso o lo suficientemente seguro como para descartar la carga útil de la siguiente etapa.

«A corto plazo, existe el riesgo de que la proliferación de capacidades de modelos de IA de frontera permita a los adversarios explotar los días cero y los días N a una escala sin precedentes», dijo la Unidad 42 de Palo Alto Networks. «También podría permitir a los atacantes operar a mayor escala, sofisticación y velocidad que nunca».

El mes pasado, la firma de ciberseguridad también detalló un agente de prueba de concepto (PoC) llamado Zealot que aprovecha el poder de LLM para explotar vulnerabilidades y configuraciones erróneas conocidas para ejecutar ataques en la nube de un extremo a otro con una mínima guía humana.

Esto se debe al hecho de que los entornos de nube están «preparados para ataques de IA» de forma predeterminada, dado que todas las acciones tienen API equivalentes, tienen diferentes mecanismos de detección, como metadatos y servicios de enumeración, son propensos a configuraciones erróneas y están impulsados por acceso basado en credenciales.

«Los LLM actuales pueden encadenar reconocimiento, explotación, escalada de privilegios y fuga de datos con una mínima guía humana», dijeron los investigadores de la Unidad 42, Yahav Festinger y Chen Doytshman. «Si bien los ataques no son nuevos, la automatización significa que las operaciones que antes requerían conocimientos especializados ahora pueden ser coordinadas por agentes de IA de acuerdo con patrones establecidos».

Source link

What's Hot

Claude AI descifra el esquema de prueba post-cuántica y descubre un ataque AES de 7 rondas más rápido

El nuevo motor térmico cuántico produce trabajo y enfriamiento simultáneamente

La botnet Tengu reinicia los dispositivos Linux comprometidos cuando los defensores cierran procesos

La vulnerabilidad ChatGPhish convierte los resúmenes web de ChatGPT en superficies de phishing

Claude AI descifra el esquema de prueba post-cuántica y descubre un ataque AES de 7 rondas más rápido

La botnet Tengu reinicia los dispositivos Linux comprometidos cuando los defensores cierran procesos

Una falla crítica en TeamCity podría permitir a un atacante ejecutar comandos del sistema operativo sin iniciar sesión

Claude AI descifra el esquema de prueba post-cuántica y descubre un ataque AES de 7 rondas más rápido

El nuevo motor térmico cuántico produce trabajo y enfriamiento simultáneamente

La botnet Tengu reinicia los dispositivos Linux comprometidos cuando los defensores cierran procesos

Investigadores de Warwick proponen una nueva ruta hacia la transferencia escalable de información cuántica

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

La vulnerabilidad ChatGPhish convierte los resúmenes web de ChatGPT en superficies de phishing

Related Posts