
Anthropic anunció el viernes que «deshabilitaría repentinamente» sus últimos modelos de inteligencia artificial (IA), Claude Fabre 5 y Mythos 5, después de que el gobierno de Estados Unidos le ordenara poner fin al acceso a los modelos a ciudadanos extranjeros, tanto dentro como fuera de Estados Unidos, citando preocupaciones de seguridad nacional.
La compañía de IA anunció a las 5:21 p.m. ET que se le había ordenado detener todo acceso a sus modelos por parte de extranjeros. Dijo que cree que hubo un «malentendido» y está trabajando para restablecer el acceso al modelo lo antes posible. El acceso a otros modelos no se ve afectado por la Directiva de Control de Exportaciones.
«Tenemos entendido que el gobierno ha descubierto una forma de eludir o ‘hacer jailbreak’ a Fable 5», dijo la compañía.
«Revisamos una demostración de esta técnica particular que se utiliza para identificar una pequeña cantidad de vulnerabilidades menores conocidas. Aunque todas estas vulnerabilidades parecen relativamente simples, descubrimos que otros modelos disponibles públicamente también pueden detectarlas sin necesidad de evitarlas».
Este movimiento inesperado se produce pocos días después del lanzamiento de Claude Fable 5 y su contraparte Mythos 5. Mythos 5 utiliza el mismo modelo básico, pero elimina salvaguardas en algunas áreas, como la ciberseguridad. Se dice que este último tiene «las capacidades de ciberseguridad más poderosas de cualquier modelo en el mundo» y seguirá siendo accesible para un grupo de ciberdefensores y operadores de infraestructura crítica examinados.
Anthropic enfatizó que ha implementado barreras de seguridad «fuertes» para evitar que el modelo sea mal utilizado para tareas relacionadas con la ciberseguridad. Específicamente, esto está respaldado por un conjunto de clasificadores de seguridad utilizados para detectar posibles usos indebidos, incluidos intentos de jailbreak, y prohibir que el modelo principal responda.
El clasificador de ciberseguridad está diseñado para bloquear solicitudes dañinas de un solo turno relacionadas con la planificación de ataques cibernéticos, el desarrollo de exploits o la evasión de defensa, y la compañía señala que la clase de modelos Mythos es experta en encontrar y explotar vulnerabilidades de software, brindando así a los atacantes una ventaja estratégica.
La semana pasada, Anthropic reveló que su modelo de clase Mythos puede convertir vulnerabilidades de software recientemente reveladas en exploits funcionales en horas, o incluso minutos, en lugar de semanas, convirtiendo N días en N horas. Este hallazgo sugiere que el modelo de frontera puede ser igualmente bueno para convertir rápidamente en armas los defectos publicitados.
El equipo rojo de Anthropic dice: «Un solo operador ahora puede convertir los parches de un mes en un exploit funcional en una tarde, por unos pocos miles de dólares y sin conocimientos especializados». «Esto significa que las estrategias típicas de parcheo que los desarrolladores de software utilizan hoy en día (cadencias de lanzamiento mensuales, implementaciones graduales a lo largo de varias semanas y retrasos entre los canales de prelanzamiento y estables) ya no funcionan».
Las funciones de protección de Fable 5 significan que las consultas sobre temas de ciberseguridad recibirán una respuesta del próximo modelo de funciones de la compañía, Claude Opus 4.8.
En su último comunicado, la compañía afirmó que hasta la fecha no se ha desarrollado ningún método universal de jailbreak para sus últimos modelos, y agregó que los ejercicios internos y de terceros del equipo rojo han descubierto que sus medidas de seguridad son «significativamente más efectivas que los modelos introducidos anteriormente».
Además, Anthropic argumentó que la «resistencia perfecta al jailbreak» no es posible para ningún proveedor modelo, ya que todas las salvaguardas utilizadas en la industria son susceptibles a jailbreaks no universales que son «efectivos en circunstancias muy limitadas o requieren un esfuerzo adicional para adaptarse a nuevas circunstancias».
«Hasta ahora, el gobierno ha proporcionado sólo evidencia verbal de la posibilidad de un jailbreak limitado y no universal, que esencialmente requiere un modelo para leer una base de código específica para corregir fallas en el software», dijo el ministerio.
«Tenemos entendido que uno de los posibles jailbreak fue compartido con el gobierno. Hemos revisado el informe que parece ser la base de la directiva del gobierno y hemos verificado que el nivel de funcionalidad presentado en él está ampliamente disponible en otros modelos (incluido el GPT-5.5 de OpenAI) y los defensores lo utilizan diariamente para mantener los sistemas seguros».
Anthropic también señaló que si bien es responsabilidad del gobierno prevenir la introducción de IA insegura, los modelos comerciales ampliamente implementados no deberían retirarse debido al descubrimiento de una «estrecha posibilidad de fuga». Añadió que el proceso legal debe ser «transparente, justo, claro y basado en hechos técnicos».
A principios de este año, el Departamento de Defensa de Estados Unidos calificó a Anthropic como un «riesgo para la cadena de suministro» después de que Claudemaker intentara trazar una línea bajo el uso militar de la tecnología de Anthropic. La empresa presentó dos demandas solicitando una orden judicial contra la designación.
Source link
