
El 9 de junio, Anthropic lanzó al público Claude Fable 5, el modelo más capaz que jamás hayan creado. También hizo algo inusual. Enviamos un modelo como dos productos, divididos por nivel de clasificadores de seguridad en lugar de por funcionalidad.
Fable 5 se lanzará al público. Su gemelo, Claude Mythos 5, es el mismo modelo subyacente al que se le han eliminado las salvaguardas cibernéticas y permanece limitado a un grupo examinado de ciberdefensores y operadores de infraestructura crítica.
Anthropic considera que Mythos 5 es el modelo de ciberseguridad más poderoso del mundo.
Las diferencias reales son: Fable 5 enruta las solicitudes cibernéticas, biológicas, químicas y de destilación al más débil Claude Opus 4.8, mientras que Mythos 5 pone las capacidades cibernéticas a disposición de los usuarios examinados. Ambos modelos tienen un precio de 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, menos de la mitad del precio del Mythos Preview anterior, y Fable 5 ahora está disponible a través de la API de Claude.
Está incluido en los planes Pro, Max, Team y Enterprise basados en asientos sin cargo adicional hasta el 22 de junio, después de lo cual pasa a créditos de uso.
Cómo funciona el clasificador cibernético de Fable 5
Esta división existe porque la clase de modelos Mythos descubre y explota suficientes vulnerabilidades de software y, en el marco de Anthropic, ofrecer esa funcionalidad al público sin control daría a los atacantes una gran ventaja.
Este mecanismo es un conjunto de clasificadores o sistemas de inteligencia artificial separados que monitorean el uso indebido y los intentos de jailbreak. Fable 5 no rechaza solicitudes que fallan. La respuesta se pasa a Opus 4.8 y se notifica al usuario que se ha producido una transferencia. De las categorías señaladas, la destilación es la más extraña. Esto significa extraer las características de un modelo para entrenar un modelo competitivo y bloques antrópicos de esas características para evitar la filtración de características que están cerca de la frontera sin salvaguardias implementadas.
Los clasificadores de ciberseguridad son amplios. Anthropic lo diseñó para bloquear no solo el desarrollo de exploits, sino también las tareas cibernéticas ofensivas en general, incluido el reconocimiento, el descubrimiento, el movimiento lateral y los pasos de los agentes que constituyen un ataque real.
En evaluaciones internas realizadas con Fable 5 configurado para bloquear en lugar de retroceder y sin intentar eludir las salvaguardas, el clasificador impidió que el modelo avanzara en estas tareas. Un socio externo descubrió que Fable 5 cumple con cero solicitudes dañinas de un solo turno para la planificación de ataques cibernéticos, desarrollo de exploits y evasión de defensa, y contrarresta 30 técnicas públicas diferentes de jailbreak.
La compensación son los falsos positivos. Debido a que Anthropic ajusta de manera conservadora sus medidas de seguridad para garantizar un envío rápido, puede detectar algunas solicitudes inofensivas. La compañía dice que el retroceso ocurre en menos del 5% de todas las sesiones, por lo que más del 95% de las veces, Fable 5 se comporta como Mythos 5 sin restricciones cibernéticas. Este número cubre todas las alternativas, incluidos los bloqueos genuinos, por lo que suprime la confusión general en lugar de medir la tasa de falsos positivos de forma aislada. Anthropic dice que reducirá las salvaguardas posteriores al lanzamiento y reducirá los falsos positivos.
Cuando se trata de solidez, las cifras son concretas. Las recompensas por errores externos superaron las 1000 horas, pero no produjeron jailbreaks universales, avisos ni arneses que eliminaran por completo las salvaguardas. El equipo rojo externo tampoco encontró nada sobre las tareas de agentes de larga duración, excepto una advertencia, que Anthropic establece claramente: el Instituto de Seguridad de IA del Reino Unido ha avanzado hacia un jailbreak universal en un corto período de prueba inicial. Anthropic reconoce que probablemente será imposible prevenir por completo los jailbreaks universales, y su objetivo es detectar los jailbreaks que todavía son lentos y costosos mucho antes de que se utilicen a escala.
¿Por qué esa habilidad es una amenaza?
Las razones para ser cautelosos con este modelo se presentaron en abril cuando Anthropic lanzó Claude Mythos Preview a un grupo limitado a través del Proyecto Glasswing. Vale la pena leer los artículos técnicos del equipo rojo de Anthropic.
Durante las pruebas, Mythos Preview identificó y aprovechó vulnerabilidades de día cero en todos los principales sistemas operativos y todos los principales navegadores web cuando lo indicaron los usuarios. El error más antiguo que descubrió el equipo fue una falla de 27 años en OpenBSD, un sistema operativo conocido principalmente por su seguridad. El virus creó de forma autónoma un exploit de ejecución remota de código contra el servidor NFS de FreeBSD a partir de un error de hace 17 años y fue clasificado como CVE-2026-4747.

Anthropic describe el resultado como acceso raíz completo para atacantes no autenticados desde cualquier lugar de Internet. Tenga en cuenta que la entrada NVD es más sensible y, si bien el desbordamiento de pila en sí no requiere autenticación del cliente, sí permite que un atacante que puede enviar paquetes al servidor NFS mientras se carga el módulo kgssapi.ko alcance la ejecución del código del kernel.
Según la propia explicación de Anthropic, no entrenaron explícitamente estas características. Estos aparecieron como efectos secundarios de mejoras generales en el código, el razonamiento y la autonomía. Este es el mismo beneficio que mejora la aplicación de parches a modelos. La advertencia clara del Equipo Rojo: las mitigaciones cuyo valor de seguridad proviene de la fricción en lugar de barreras duras son mucho más débiles frente a modelos que caminan minuciosamente por los tediosos pasos de la explotación a gran escala.
Las rígidas barreras técnicas como KASLR y W^X continúan elevando los costos. Las advertencias son más específicas y están destinadas a defensas que dependen de la paciencia o el esfuerzo manual del atacante y ahora pueden ser proporcionadas automáticamente por el propio modelo.
Mythos 5 transmite estas habilidades. Anthropic dice que los usuarios encontrarán que es igual o ligeramente más poderoso que Mythos Preview.
Problemas reales del defensor
El caso de la defensa no es hipotético. En las primeras semanas del Proyecto Glasswing, Anthropic y aproximadamente 50 socios utilizaron Mythos Preview para descubrir más de 10,000 vulnerabilidades de alta o alta gravedad en software crítico para el sistema.
Solo Cloudflare encontró 2000 errores, 400 de los cuales eran errores de alta gravedad o gravedad. Mozilla encontró y solucionó 271 en Firefox 150. Esto es más de 10 veces lo que detectamos en Firefox 148 con el Opus 4.6 anterior. Además de Glasswing, Anthropic dijo que se está viendo una presión similar entre otros proveedores que envían versiones de seguridad inusualmente grandes.
Esa inundación es la presa. Encontrar errores ahora es más barato y más rápido. La validación, la priorización y la aplicación de parches no se realizan, y se siguen realizando, en tiempo humano.
Anthropic informa que los mantenedores de código abierto, que ya están atrapados en informes de errores de baja calidad generados por IA, están pidiendo un retraso en el lanzamiento porque no pueden producir parches lo suficientemente rápido. Glasswing dice que, en promedio, se necesitan aproximadamente dos semanas para corregir errores de alta gravedad o gravedad descubiertos por sus modelos.
Los cuellos de botella han pasado del descubrimiento a la corrección, y la brecha entre la publicación y la implementación de parches es donde viven los atacantes. El experimento del día N del Equipo Rojo deja claro ese punto. Comenzando únicamente con CVE disponibles públicamente y sus parches, Mythos Preview ha creado exploits de escalada de privilegios de Linux que funcionan en menos de un día cada uno y con un costo computacional de menos de unos pocos miles de dólares.
Para la defensa, las lecturas son las mismas que antes, sólo que con un reloj más corto. Suponemos que los CVE de alta gravedad pueden convertirse en exploits activos a las pocas horas de su publicación, en lugar de semanas. Esto significa priorizar las rutas de actualización automática para los sistemas conectados a Internet y tratar los problemas de dependencia con correcciones CVE como un trabajo urgente en lugar de retrasos.
MFA y el registro integral siguen siendo la base, por lo que perder un solo parche nunca es lo único que se interpone entre un atacante y su red. Anthropic ha lanzado un programa de validación cibernética que permite a expertos en seguridad examinados utilizar sus modelos para trabajos de ataque legítimos sin ninguna protección cibernética.
Nuevo requisito de retención de datos de 30 días
Anthropic también está cambiando la forma en que se manejan los datos en el modelo de clase Mythos.
Fable 5, Mythos 5 y los modelos futuros con este nivel de funciones requieren que todo el tráfico se retenga durante 30 días tanto en superficies propias como de terceros. La compañía dice que no utilizará los datos para ningún otro propósito que no sea capacitación o seguridad, registrará el acceso de cualquier persona y eliminará los datos después de 30 días, a menos que las investigaciones de seguridad u obligaciones legales requieran una retención más prolongada.
La razón expuesta es defensiva. Los datos ayudan a detectar nuevos ataques y jailbreak que funcionan en muchas solicitudes. Los equipos con requisitos estrictos de procesamiento de datos deben tener en cuenta los períodos de retención antes de enrutar el tráfico confidencial a través de estos modelos.
Anthropic dice que planea ampliar el acceso a Mythos 5 a través de su programa Trusted Access y pretende que Fable 5 vuelva a los planes de suscripción sin prima de crédito de uso a partir del 22 de junio, una vez que la potencia informática se haya puesto al día.
La pregunta más importante que plantea este anuncio es que Anthropic ha estado circulando desde abril. De otros laboratorios han surgido modelos con funcionalidad similar, y no todos se envían con una pared clasificadora en el frente. La ventaja defensiva que Glasswing iba a comprar sólo tiene sentido si otras empresas de la industria la utilizan.
Source link
