Según Anthropic, las representaciones ficticias de la inteligencia artificial pueden tener efectos en el mundo real en los modelos de IA.
La compañía anunció el año pasado que durante las pruebas previas al lanzamiento que involucraban compañías ficticias, Claude Opus 4 a menudo intentaba chantajear a los ingenieros para evitar ser reemplazado por otro sistema. Anthropic publicó más tarde una investigación que sugería que los modelos de otras empresas tenían problemas similares con la «desalineación de los agentes».
Parece que Anthropic ha tomado más medidas sobre su comportamiento, afirmando en una publicación
La compañía dio más detalles en una publicación de blog, diciendo que a partir de Claude Haiku 4.5, los modelos de Anthropic «nunca hacen amenazas (durante las pruebas), en comparación con hasta el 96% de las veces en modelos anteriores».
¿A qué se debe esta diferencia? La compañía dijo que descubrió que la capacitación basada en «los documentos constitucionales de Claude y las historias ficticias de la IA funcionando de manera brillante» mejoraba la coordinación.
En este sentido, Anthropic afirmó que se descubrió que la capacitación era más efectiva cuando incluía «los principios que subyacen al comportamiento coordinado» en lugar de simplemente «una demostración de comportamiento coordinado por sí solo».
«Hacer ambas cosas juntas parece ser la estrategia más eficaz», afirmó la empresa.
evento de crisis tecnológica
San Francisco, California
|
13-15 de octubre de 2026
Source link
