
Anthropic anunció el lunes que había identificado una «campaña a escala industrial» en la que tres empresas de inteligencia artificial (IA), Deep Seek, Moonshot AI y MiniMax, extrajeron ilegalmente las habilidades de Claude para mejorar sus modelos.
Este ataque de destilación resultó en más de 16 millones de interacciones con su modelo de lenguaje a gran escala (LLM) a través de aproximadamente 24.000 cuentas fraudulentas que violaron los términos de servicio y las restricciones de acceso regional. Las tres empresas tienen su sede en China, donde sus servicios están prohibidos debido a «riesgos legales, regulatorios y de seguridad».
La destilación se refiere a la técnica de entrenar un modelo menos capaz en función del resultado producido por un sistema de IA más potente. La destilación es una forma legal para que las empresas produzcan versiones más pequeñas y más baratas de sus modelos Frontier, pero es ilegal que los competidores la utilicen para adquirir dichas capacidades de otras empresas de IA en una fracción del tiempo y el costo que llevaría desarrollarlas internamente.
«Los modelos elaborados ilegalmente carecen de las salvaguardias necesarias y suponen un importante riesgo para la seguridad nacional», afirmó Antropic. «Es poco probable que los modelos construidos mediante destilación ilegal conserven estas salvaguardias, lo que significa que pueden proliferar características peligrosas cuando se eliminan por completo muchas características protectoras».
Las empresas extranjeras de IA que simplifiquen el modelo estadounidense podrían convertir en armas estas capacidades desprotegidas para facilitar actividades cibernéticas u otras actividades maliciosas, sirviendo así como base para sistemas militares, de inteligencia y de vigilancia que los gobiernos autoritarios podrían desplegar para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva.
La campaña detallada por la startup de IA implica el uso de cuentas fraudulentas y servicios de proxy comerciales para acceder a Claude a escala evitando la detección. Anthropic dijo que podía atribuir cada campaña a un laboratorio de inteligencia artificial específico en función de los metadatos de la solicitud, la correlación de direcciones IP, los metadatos de la solicitud y las métricas de infraestructura.
Los detalles de los tres ataques de destilación son los siguientes:
DeepSeek se centró en la capacidad de razonamiento de Claude, una tarea de puntuación basada en rúbricas, y contó con la ayuda de más de 150.000 intercambios para generar alternativas seguras para la censura para cuestiones políticamente delicadas, incluidas preguntas sobre disidentes, líderes de partidos y autoritarismo. Moonshot AI cubrió la inferencia de agentes y el uso de herramientas de Claude, las capacidades de codificación, el desarrollo de agentes habilitados por computadora y la visión por computadora en más de 3,4 millones de intercambios. MiniMax se centró en las capacidades de uso de herramientas y codificación de agentes de Claude en más de 13 millones de intercambios.
«La cantidad, estructura y enfoque de las indicaciones difieren de los patrones de uso normales y reflejan una extracción deliberada de características en lugar de un uso legítimo», añadió Antropic. «Cada campaña se centró en las capacidades más diferenciadas de Claude: razonamiento de agentes, uso de herramientas y codificación».
La compañía también señaló que el ataque se basó en servicios de proxy comerciales que revenden el acceso a Claude y otros modelos de Frontier AI a escala. Estos servicios utilizan una arquitectura de «clúster hidra» que incluye una gran red de cuentas fraudulentas para distribuir el tráfico a través de la API.
Luego, este acceso se utiliza para generar una gran cantidad de mensajes cuidadosamente elaborados y diseñados para extraer características específicas del modelo con el fin de recopilar respuestas de alta calidad y entrenar su propio modelo.
«La amplitud de estas redes significa que no existe un único punto de falla», dijo Antropic. «Cuando se prohíbe una cuenta, se utiliza una nueva en su lugar. En un caso, una única red proxy gestionó más de 20.000 cuentas fraudulentas simultáneamente, mezclando tráfico destilado con solicitudes de clientes no relacionadas y dificultando la detección».
Para combatir esta amenaza, Anthropic dijo que ha creado varios clasificadores y sistemas de huellas dactilares de comportamiento para identificar patrones sospechosos de ataques de destilación en el tráfico API, fortaleció la validación de cuentas educativas, programas de investigación de seguridad y organizaciones emergentes, e implementó salvaguardias mejoradas para reducir la efectividad de los resultados del modelo contra la destilación no autorizada.
Esta divulgación se produce semanas después de que Google Threat Intelligence Group (GTIG) revelara que había identificado e interrumpido ataques de destilación y extracción de modelos dirigidos a las capacidades de inferencia de Gemini a través de más de 100.000 mensajes.
Google dijo a principios de este mes que «los ataques de extracción y destilación de modelos no amenazan la confidencialidad, disponibilidad o integridad de nuestros servicios de inteligencia artificial, por lo que normalmente no representan un riesgo para el usuario promedio». «Más bien, el riesgo se concentra en los desarrolladores de modelos y proveedores de servicios».
Source link
