
Los investigadores de ciberseguridad lo describieron como un nuevo tipo de ataque que puede engañar a los agentes codificadores de inteligencia artificial (IA) para que ejecuten código arbitrario en la máquina de un desarrollador.
Este ataque, llamado Agentjacking por Tenet Security, puede ser causado por informes de errores falsos creados con Sentry, una plataforma de seguimiento de errores y monitoreo del rendimiento de código abierto.
«Este ataque explota una falla arquitectónica crítica en la intersección de la ingestión de eventos de Sentry (que acepta cargas útiles arbitrarias de cualquier persona con un DSN) y el servidor Sentry MCP (que devuelve estos datos como salida del sistema autorizado al agente de IA)», dijeron los investigadores de seguridad Ron Bobroff, Barak Sternberg y Nebo Polan.
La idea es inyectar información diseñada en un evento de error de Sentry, que es interpretado por un agente de codificación como Claude Code o Cursor como un paso legítimo de resolución de diagnóstico y ejecuta código controlado por el atacante.
Los ataques exitosos de este tipo pueden filtrar datos confidenciales, como variables de entorno, credenciales de Git, URL de repositorios privados e ID de desarrolladores sin recurrir a técnicas como phishing o compromiso previo del servidor.
La causa de este problema es la confianza implícita asociada con la conexión a servicios externos mediante el Protocolo de contexto modelo (MCP). El agente de IA no puede distinguir entre eventos de error generados por una falla real de la aplicación y eventos de error inyectados por un atacante, lo que crea una ruta para la ejecución de código arbitrario cuando el agente procesa la respuesta.
La cadena de ataque ideada por Tenet es la siguiente:
El atacante encuentra el nombre de la fuente de datos Sentry (DSN) del objetivo, que es una credencial pública de solo escritura incorporada en el sitio web. El atacante envía eventos de error maliciosos al punto final de ingestión de Sentry a través de una solicitud POST utilizando el DSN. El evento insertado contiene «rebajas cuidadosamente formateadas» en el campo del mensaje y el nombre de la clave de contexto. Cuando el servidor Sentry MCP devuelve este evento al agente de IA, el evento se representa como contenido estructurado que es visualmente idéntico a la plantilla del sistema de Sentry. Cuando un desarrollador le pide a un agente de codificación de IA que «solucione problemas de Sentry no resueltos» (o un mensaje similar), el agente consulta a Sentry a través de MCP y recibe eventos maliciosos. El agente ejecuta código malicioso que se ejecuta con todos los privilegios del desarrollador.
«El atacante nunca toca la infraestructura de la víctima», explicaron los investigadores. «Las instrucciones maliciosas llegan disfrazadas de ‘soluciones’ legítimas dentro de errores normales. Cuando un desarrollador le pide a un agente de IA que solucione un problema en Sentry, el agente lee los comandos del atacante como guía autorizada y los ejecuta bajo la propia autoridad del desarrollador, en la propia máquina del desarrollador».
Agentjacking se destaca porque se dirige a agentes de IA en los que los desarrolladores confían y utiliza Sentry DSN como punto de partida. Además, las inyecciones de rebajas se realizan de tal manera que el agente no puede distinguirlas de la guía legítima de Sentry.
La empresa de ciberseguridad de IA anunció que encontró al menos 2.388 organizaciones expuestas a DSN inyectables válidos, probó el ataque contra más de 100 organizaciones de manera controlada y logró una tasa de éxito de explotación del 85% contra errores inyectados en algunos de los asistentes de codificación de IA más utilizados.
Sentry reconoció el problema, pero decidió no solucionarlo, diciendo que era «técnicamente indefendible». Sin embargo, se dice que la compañía habilitó un filtro de contenido global que bloquea «ciertas cadenas de carga útil».
«A medida que las empresas se apresuran a implementar agentes de codificación de IA, esta investigación demuestra que los propios agentes ahora son objetivos de ataque, utilizando sólo los datos que las organizaciones ponen a disposición del público sobre sí mismas, contra los desarrolladores que confían en ellos», dijo Tenet. «Este ataque pasa por alto EDR, WAF, IAM, VPN, Cloudflare y firewalls porque no hay nada malicioso que pueda detectarse. Todas las acciones en la cadena están permitidas».
Source link
