Antropic afirma que la representación «malvada» de la IA fue la causa del intento de chantaje de Claude

Según Anthropic, las representaciones ficticias de la inteligencia artificial pueden tener efectos en el mundo real en los modelos de IA.

La compañía anunció el año pasado que durante las pruebas previas al lanzamiento que involucraban compañías ficticias, Claude Opus 4 a menudo intentaba chantajear a los ingenieros para evitar ser reemplazado por otro sistema. Anthropic publicó más tarde una investigación que sugería que los modelos de otras empresas tenían problemas similares con la «desalineación de los agentes».

Parece que Anthropic ha tomado más medidas sobre su comportamiento, afirmando en una publicación

La compañía dio más detalles en una publicación de blog, diciendo que a partir de Claude Haiku 4.5, los modelos de Anthropic «nunca hacen amenazas (durante las pruebas), en comparación con hasta el 96% de las veces en modelos anteriores».

¿A qué se debe esta diferencia? La compañía dijo que descubrió que la capacitación basada en «los documentos constitucionales de Claude y las historias ficticias de la IA funcionando de manera brillante» mejoraba la coordinación.

En este sentido, Anthropic afirmó que se descubrió que la capacitación era más efectiva cuando incluía «los principios que subyacen al comportamiento coordinado» en lugar de simplemente «una demostración de comportamiento coordinado por sí solo».

«Hacer ambas cosas juntas parece ser la estrategia más eficaz», afirmó la empresa.

evento de crisis tecnológica

San Francisco, California
|
13-15 de octubre de 2026

Source link

What's Hot

Corgi, la popular startup de tecnología de seguros respaldada por Y Combinator, afirma que no está robando productos de código abierto

El FBI advierte que los piratas informáticos de inteligencia rusos apuntan a las claves de recuperación de respaldo de señal

Novak Djokovic tiene un nuevo trabajo: asesor de la firma de capital privado General Atlantic

Antropic afirma que la representación «malvada» de la IA fue la causa del intento de chantaje de Claude

Corgi, la popular startup de tecnología de seguros respaldada por Y Combinator, afirma que no está robando productos de código abierto

Novak Djokovic tiene un nuevo trabajo: asesor de la firma de capital privado General Atlantic

OpenAI restringe la implementación de GPT-5.6 a pedido del gobierno, dice que las restricciones no deberían ser estándar

Corgi, la popular startup de tecnología de seguros respaldada por Y Combinator, afirma que no está robando productos de código abierto

El FBI advierte que los piratas informáticos de inteligencia rusos apuntan a las claves de recuperación de respaldo de señal

Novak Djokovic tiene un nuevo trabajo: asesor de la firma de capital privado General Atlantic

OpenAI restringe la implementación de GPT-5.6 a pedido del gobierno, dice que las restricciones no deberían ser estándar

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

Antropic afirma que la representación «malvada» de la IA fue la causa del intento de chantaje de Claude

Related Posts