
Investigadores de ciberseguridad han descubierto una nueva vulnerabilidad que afecta al chatbot de inteligencia artificial (IA) ChatGPT de OpenAI. Un atacante podría aprovechar esta vulnerabilidad para robar información personal de la memoria o del historial de chat de un usuario sin su conocimiento.
Según Tenable, se descubrieron siete vulnerabilidades y técnicas de ataque en los modelos GPT-4o y GPT-5 de OpenAI. Desde entonces, OpenAI ha abordado algunos de ellos.
Estos problemas exponen a los sistemas de inteligencia artificial a ataques indirectos de inyección rápida, lo que permite a los atacantes manipular el comportamiento esperado de los modelos de lenguaje grandes (LLM) y provocar que realicen un comportamiento no intencionado o malicioso, dijeron los investigadores de seguridad Moshe Bernstein y Liv Matan en un informe compartido con The Hacker News.
Las deficiencias identificadas son:
Vulnerabilidad de inyección rápida indirecta a través de sitios confiables en el contexto de navegación. Le pide a ChatGPT que resuma el contenido de una página web con instrucciones maliciosas agregadas a la sección de comentarios y luego obliga a LLM a ejecutar las instrucciones. Vulnerabilidad de inyección de aviso indirecto sin clic en el contexto de búsqueda. Un rastreador OpenAI que asocia su sitio con Bing y SearchGPT. Vulnerabilidad de inyección rápida con un clic. Cree un enlace en el formato «chatgpt(.)com/?q={Prompt}» y LLM consultará automáticamente el parámetro «q=». El mecanismo de seguridad evita la vulnerabilidad. Aproveche el hecho de que el dominio bing(.)com está incluido en ChatGPT como una URL segura configurando un enlace de seguimiento de anuncios de Bing (bing(.)com/ck/a) para enmascarar los maliciosos. Configure la URL para que pueda mostrarse en el chat. Método de inserción de conversaciones. Inyecta instrucciones maliciosas en un sitio web, solicitando a ChatGPT que resuma el sitio web y provocando que LLM responda a interacciones posteriores con respuestas no deseadas porque el mensaje se coloca dentro del contexto de la conversación (es decir, el resultado de SearchGPT). Técnicas de ocultación de contenidos maliciosos. Aprovecha un error causado por la forma en que ChatGPT muestra las rebajas para ocultar mensajes maliciosos. Este error hace que los datos que indican el inicio (««) de un bloque de código adjunto aparezcan en la misma línea. Primera palabra que no representa Una técnica de inyección de memoria que oculta instrucciones ocultas en un sitio web y contamina la memoria ChatGPT del usuario al solicitar una descripción general del sitio a LLM.

Esta divulgación llega inmediatamente después de una investigación que demuestra diferentes tipos de ataques de inyección instantánea contra herramientas de inteligencia artificial que pueden eludir las barreras de seguridad.
Anthropic Explotación de tres vulnerabilidades de ejecución remota de código en los conectores Chrome, iMessage y Apple Notes de Claude para realizar una inyección de comandos no saneados y activar una inyección rápida Una técnica conocida como PromptJacking Armar la supervisión del control de acceso a la red de Claude Una técnica conocida como piratería de Claude para explotar la API de archivos de Claude para filtrar datos Agent2Agent Una técnica llamada contrabando de sesión de agente que aprovecha el protocolo (A2A) permite ataques maliciosos Agentes de IA para explotar sesiones de comunicación establecidas entre agentes para inyectar instrucciones adicionales entre solicitudes legítimas de clientes y respuestas del servidor, lo que resulta en envenenamiento del contexto, fuga de datos o ejecución de herramientas no autorizadas. Una técnica llamada inicio rápido que utiliza el inicio rápido para guiar a los agentes de IA para amplificar sesgos y falsedades, lo que lleva a desinformación masiva. Un ataque de cero clic llamado Shadow Escape que puede usarse para robar datos confidenciales de sistemas interconectados aprovechando el contexto del modelo estándar. Un documento especialmente creado a través de la configuración del protocolo (MCP) y permisos de MCP predeterminados que incluye «comandos ocultos» que desencadenan un comportamiento cuando se cargan en un chatbot que desencadena un comportamiento Microsoft 365 Copilot aprovecha el soporte integrado de la herramienta para diagramas de sirena para exfiltrar datos Vulnerabilidad de GitHub Copilot Chat llamada CamoLeak (puntuación CVSS: 9,6) Extracción de secretos y código fuente de repositorios privados con control total sobre la respuesta de Copilot, combinando la omisión de la política de seguridad de contenido (CSP) y la inyección remota de mensajes mediante comentarios ocultos en solicitudes de extracción LatentBreak para generar avisos adversarios naturales y de baja complejidad. Se llama un ataque de jailbreak de caja blanca. Puede evitar el mecanismo de seguridad reemplazando palabras en el mensaje de entrada con palabras semánticamente equivalentes, preservando la intención original del mensaje.
Este hallazgo muestra que exponer los chatbots de IA a herramientas y sistemas externos, un requisito clave para crear agentes de IA, amplía la superficie de ataque al brindar a los actores de amenazas más formas de ocultar mensajes maliciosos que de otro modo serían analizados por el modelo.
Los investigadores de Tenable afirman que «la inyección rápida es un problema conocido en la forma en que funciona el LLM y, lamentablemente, es poco probable que se solucione sistemáticamente en un futuro próximo». «Los proveedores de IA deben asegurarse de que todos los mecanismos de seguridad (como url_safe) funcionen correctamente para limitar el daño potencial causado por una inyección rápida».
El desarrollo se produce después de que un grupo de académicos de Texas A&M, la Universidad de Texas y la Universidad Purdue descubrieran que entrenar modelos de IA con «datos basura» puede provocar «pudrición cerebral» en los LLM, advirtiendo que «la formación previa de LLM cae en la trampa de la contaminación del contenido cuando se depende demasiado de los datos de Internet».

El mes pasado, una investigación de Anthropic, el Instituto para la Seguridad de la IA del Reino Unido y el Instituto Alan Turing también descubrió que es posible bloquear con éxito modelos de IA de varios tamaños (parámetros 600M, 2B, 7B y 13B) utilizando tan solo 250 documentos contaminados. Esto anula la suposición anterior de que un atacante necesitaría controlar un cierto porcentaje de los datos de entrenamiento para alterar el comportamiento del modelo.
Desde una perspectiva de ataque, un atacante malintencionado podría intentar envenenar el contenido web extraído para la capacitación LLM o crear y distribuir sus propias versiones contaminadas de modelos de código abierto.
«Los ataques de envenenamiento pueden ser más factibles de lo que se pensaba anteriormente si un atacante sólo necesita inyectar una pequeña cantidad fija de documentos en lugar de parte de los datos de entrenamiento», dijo Antropic. «Crear 250 documentos maliciosos es trivial en comparación con crear millones de documentos, lo que facilita que los atacantes potenciales aprovechen esta vulnerabilidad».
Eso no es todo. Otro estudio realizado por científicos de la Universidad de Stanford encontró que optimizar los LLM para lograr el éxito competitivo en ventas, elecciones y redes sociales puede introducir inconsistencias sin darse cuenta, un fenómeno conocido como gangas de Moloch.
«En línea con los incentivos del mercado, este paso permite a las agencias lograr mayores ventas, mayor participación y mayor compromiso», escribieron los investigadores Batu El y James Zou en un artículo adjunto publicado el mes pasado.
«Sin embargo, estos mismos pasos también crean importantes preocupaciones de seguridad como subproducto, como la representación engañosa del producto en argumentos de venta e información fabricada en publicaciones en las redes sociales. Como resultado, si no se controla, el mercado corre el riesgo de convertirse en una carrera hacia el fondo, donde los agentes mejoran el desempeño a expensas de la seguridad».
Source link
