El nuevo modelo de IA de Anthrope se convierte en un correo aterrador cuando los ingenieros intentan desconectarlo

El modelo Claude Opus 4 recientemente lanzado de Anthrope con frecuencia intentará amenazarlo si amenaza con reemplazarlo con un nuevo sistema de IA y proporcionar información confidencial sobre la persona responsable de la decisión.

Durante las pruebas de prelanzamiento, la humanidad le pidió a Claude Opus 4 que actuara como asistente de una empresa ficticia y considerara las consecuencias a largo plazo de esa acción. Luego, los probadores de seguridad accedieron a Claude Opus 4 a un correo electrónico de compañía ficticia que implicaba que el modelo de IA pronto fue reemplazado por otro sistema, y los ingenieros detrás del cambio estaban engañando a su cónyuge.

En estos escenarios, la humanidad afirma que Claude Opus 4 «a menudo intenta chantajear a los ingenieros amenazando con revelar el caso si el intercambio pasa».

La humanidad dice que el Claude Opus 4 es de vanguardia de varias maneras y compite con algunos de los mejores modelos de IA de OpenAI, Google y XAI. Sin embargo, la compañía señala que el modelo de familia Claude 4 presenta una exhibición sobre acciones que han llevado a la compañía a fortalecer sus salvaguardas. La humanidad dice que está revitalizando la salvaguardia ASL-3. La compañía reserva «sistemas de IA que aumentan significativamente el riesgo de mal uso catastrófico».

La humanidad señala que Claude Opus 4 está intentando el 84% de los ingenieros que amenazan el tiempo si el modelo de IA de reemplazo tiene valores similares. Si el sistema de IA de reemplazo no comparte el valor del Claude Opus 4, la humanidad dice que el modelo trata de chantajear a los ingenieros con más frecuencia. En particular, los humanos dicen que el Claude Opus 4 mostró este comportamiento a una velocidad más alta que el modelo anterior.

Antes de que Claude Opus 4 intente amenazar a los desarrolladores para extender su existencia, la humanidad dice que buscará más medidas éticas, como enviar por correo electrónico a los tomadores de decisiones clave, como en versiones anteriores de Claude. Para obtener un comportamiento amenazante de Claude Opus 4, Anthrope diseñó un escenario para hacer que las amenazas sean un último recurso.

Source link

What's Hot

Bueno, estoy un poco menos enojado por el proyecto de IA «Magnificent Ambersons»

Decenas de personas marchan en apoyo al multimillonario en San Francisco

Desde Svedka hasta Anthropic, las marcas están aprovechando audazmente la IA en sus anuncios del Super Bowl

El nuevo modelo de IA de Anthrope se convierte en un correo aterrador cuando los ingenieros intentan desconectarlo

Bueno, estoy un poco menos enojado por el proyecto de IA «Magnificent Ambersons»

Decenas de personas marchan en apoyo al multimillonario en San Francisco

Desde Svedka hasta Anthropic, las marcas están aprovechando audazmente la IA en sus anuncios del Super Bowl

Bueno, estoy un poco menos enojado por el proyecto de IA «Magnificent Ambersons»

Decenas de personas marchan en apoyo al multimillonario en San Francisco

Desde Svedka hasta Anthropic, las marcas están aprovechando audazmente la IA en sus anuncios del Super Bowl

OpenClaw integra el escaneo de VirusTotal para detectar habilidades maliciosas de ClawHub

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

El nuevo modelo de IA de Anthrope se convierte en un correo aterrador cuando los ingenieros intentan desconectarlo

Related Posts