Antropic afirma que la representación «malvada» de la IA fue la causa del intento de chantaje de Claude

Según Anthropic, las representaciones ficticias de la inteligencia artificial pueden tener efectos en el mundo real en los modelos de IA.

La compañía anunció el año pasado que durante las pruebas previas al lanzamiento que involucraban compañías ficticias, Claude Opus 4 a menudo intentaba chantajear a los ingenieros para evitar ser reemplazado por otro sistema. Anthropic publicó más tarde una investigación que sugería que los modelos de otras empresas tenían problemas similares con la «desalineación de los agentes».

Parece que Anthropic ha tomado más medidas sobre su comportamiento, afirmando en una publicación

La compañía dio más detalles en una publicación de blog, diciendo que a partir de Claude Haiku 4.5, los modelos de Anthropic «nunca hacen amenazas (durante las pruebas), en comparación con hasta el 96% de las veces en modelos anteriores».

¿A qué se debe esta diferencia? La compañía dijo que descubrió que la capacitación basada en «los documentos constitucionales de Claude y las historias ficticias de la IA funcionando de manera brillante» mejoraba la coordinación.

En este sentido, Anthropic afirmó que se descubrió que la capacitación era más efectiva cuando incluía «los principios que subyacen al comportamiento coordinado» en lugar de simplemente «una demostración de comportamiento coordinado por sí solo».

«Hacer ambas cosas juntas parece ser la estrategia más eficaz», afirmó la empresa.

evento de crisis tecnológica

San Francisco, California
|
13-15 de octubre de 2026

Source link

What's Hot

Antropic afirma que la representación «malvada» de la IA fue la causa del intento de chantaje de Claude

Uber siempre ha querido ser algo más que viajes. Tengo una razón para apurarme ahora

TechCrunch Mobility: la oferta pública inicial de juegos de azar de Lime

Antropic afirma que la representación «malvada» de la IA fue la causa del intento de chantaje de Claude

Uber siempre ha querido ser algo más que viajes. Tengo una razón para apurarme ahora

TechCrunch Mobility: la oferta pública inicial de juegos de azar de Lime

Nos sentimos cínicos ante el gran acuerdo de xAI con Anthropic

Antropic afirma que la representación «malvada» de la IA fue la causa del intento de chantaje de Claude

Uber siempre ha querido ser algo más que viajes. Tengo una razón para apurarme ahora

TechCrunch Mobility: la oferta pública inicial de juegos de azar de Lime

Nos sentimos cínicos ante el gran acuerdo de xAI con Anthropic

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

Antropic afirma que la representación «malvada» de la IA fue la causa del intento de chantaje de Claude

Related Posts