
A mediados de septiembre de 2025, atacantes patrocinados por el estado chino utilizaron tecnología de inteligencia artificial (IA) desarrollada por Anthropic para orquestar un ciberataque automatizado como parte de una «campaña de espionaje altamente sofisticada».
«Los atacantes explotaron las capacidades de ‘agente’ de la IA en un grado sin precedentes, utilizando la IA no sólo como asesora sino también para llevar a cabo el ciberataque en sí», afirmó la startup de IA.
Esta actividad se evalúa como un intento de manipular la herramienta de codificación de IA de Anthropic, Claude Code, para comprometer aproximadamente 30 objetivos globales en las principales empresas de tecnología, instituciones financieras, fabricantes de productos químicos y agencias gubernamentales. Algunas de estas incursiones tuvieron éxito. Desde entonces, Anthropic ha prohibido las cuentas pertinentes y ha reforzado sus mecanismos de defensa para advertir de este tipo de ataques.
Esta campaña, GTG-1002, marca la primera vez que un actor de amenazas aprovecha la IA para llevar a cabo un «ciberataque masivo» para atacar objetivos de alto valor y recopilar inteligencia sin una extensa intervención humana, lo que demuestra la evolución continua de los usos adversarios de esta tecnología.

Anthropic describió la operación como bien dotada de recursos y coordinada profesionalmente, diciendo que los atacantes convirtieron a Claude en un «agente de ciberataque autónomo» que apoyó varias etapas del ciclo de vida del ataque, incluido el reconocimiento, el descubrimiento de vulnerabilidades, la explotación, el movimiento lateral, la recopilación de credenciales, el análisis de datos y la exfiltración.
Específicamente, implica el uso de código Claude y herramientas de Protocolo de contexto modelo (MCP), donde el primero actúa como un sistema nervioso central que procesa las instrucciones del operador humano y divide los ataques de múltiples etapas en tareas técnicas más pequeñas que pueden descargarse a subagentes.
«Los operadores humanos ordenaron instancias del código Claude para que actuaran en grupos como agentes y orquestadores autónomos de pruebas de penetración. Los actores de amenazas pueden aprovechar la IA para realizar de forma independiente entre el 80 y el 90% de las operaciones tácticas a velocidades de solicitud que son físicamente imposibles», añadió la compañía. «La responsabilidad humana se centra en las decisiones de inicialización y aprobación de campañas en puntos clave de escalada».
La participación humana también se produjo en encrucijadas estratégicas, como la aprobación de la progresión del reconocimiento a la explotación activa, la aprobación del uso de credenciales recopiladas para el movimiento lateral y la toma de decisiones finales sobre el alcance y la retención de la exfiltración de datos.

El sistema es parte de un marco de ataque que toma como entrada un objetivo de interés de un operador humano y aprovecha las capacidades del MCP para realizar reconocimiento y mapeo de la superficie de ataque. En la siguiente etapa del ataque, el marco basado en Claude facilita el descubrimiento de vulnerabilidades y valida las fallas descubiertas generando una carga útil de ataque personalizada.
Al recibir la aprobación del operador humano, el sistema comienza a implementar el exploit para afianzarse e inicia una serie de actividades posteriores a la explotación que incluyen recopilación de credenciales, movimiento lateral, recopilación y extracción de datos.
En un caso dirigido a una empresa de tecnología anónima, los atacantes supuestamente ordenaron a Claude que consultara de forma independiente sus bases de datos y sistemas, analizara los resultados, señalara información confidencial y agrupara los resultados por valor de inteligencia. Además, Anthropic dijo que sus herramientas de inteligencia artificial generan documentación detallada del ataque en cada etapa, lo que potencialmente permite a los atacantes entregar acceso persistente a equipos adicionales para operaciones a largo plazo después de la ola inicial.
Según el informe, «al presentar estas tareas a Claude como solicitudes técnicas de rutina a través de indicaciones cuidadosamente diseñadas y personas establecidas, el atacante pudo obligar a Claude a ejecutar componentes individuales de la cadena de ataque sin acceder al contexto malicioso más amplio».
No hay evidencia de que la infraestructura operativa permitiera el desarrollo de malware personalizado. Más bien, se ha descubierto que dependen en gran medida de escáneres de red disponibles públicamente, marcos de explotación de bases de datos, descifradores de contraseñas y conjuntos de análisis binarios.

Sin embargo, un examen de esta actividad también reveló importantes limitaciones de las herramientas de IA. Las herramientas de inteligencia artificial son un impedimento importante para la efectividad general de este plan, ya que tienden a alucinar y fabricar datos durante operaciones autónomas, creando credenciales falsas o presentando información disponible públicamente como hallazgos importantes.
Esta revelación se produce casi cuatro meses después de que Anthropic frustrara otra operación sofisticada en julio de 2025, utilizando a Claude como arma para llevar a cabo robo a gran escala de datos personales y extorsión. Durante los últimos dos meses, OpenAI y Google también han descubierto ataques lanzados por actores de amenazas que aprovechan ChatGPT y Gemini, respectivamente.
«Esta campaña demuestra que las barreras para llevar a cabo ataques cibernéticos sofisticados se han reducido significativamente», afirmó la compañía.
«Los actores de amenazas ahora pueden usar sistemas de agentes de inteligencia artificial para hacer el trabajo de equipos completos de hackers experimentados con la configuración adecuada para analizar los sistemas de destino, escribir códigos de explotación y escanear grandes conjuntos de datos de información robada de manera más eficiente que los operadores humanos. Incluso los grupos sin experiencia y con bajos recursos pueden llevar a cabo potencialmente este tipo de ataques a gran escala».
Source link
