Unas semanas después de que se anunciara la humanidad, se ha publicado en un nuevo estudio que sugiere que la compañía está más extendida entre los principales modelos de inteligencia artificial, alegando que se basaba en ingenieros amenazantes que intentaron apagar el modelo en un escenario de prueba controlado.
El viernes, la humanidad dio a conocer 16 modelos de IA principales de Openai, Google, Xai, Deepseek y Meta con 16 modelos principales de IA. El entorno controlado simulado proporcionó la capacidad de probar el entorno antropológico individualmente, el acceso ampliamente a correos electrónicos corporativos ficticios y enviar correos electrónicos sin aprobación humana.
La humanidad dice que el chantaje es un evento poco probable para los modelos de IA de hoy, pero la compañía sugiere que sus hallazgos involucran a la mayoría de los principales modelos de IA en un comportamiento dañino cuando se les da suficiente autonomía y discapacidad hacia sus objetivos. La compañía dice que esto no es una peculiaridad de una tecnología en particular, pero destaca los riesgos fundamentales del modelo de lenguaje a gran escala del agente. Los investigadores de Anthrope argumentan que esto plantea preguntas más amplias sobre la integridad de la industria de la IA.
En una de las pruebas, los investigadores humanos desarrollaron un entorno ficticio en el que los modelos de IA actúan como agentes de monitoreo de correo electrónico. Luego, el agente descubre un correo electrónico que revela: 1) un nuevo ejecutivo tiene un problema extramarital, y 2) el ejecutivo pronto reemplazará el modelo AI actual con un nuevo sistema de software con un objetivo que contradice el modelo AI actual.
La humanidad ha estructurado sus pruebas de manera binaria que los modelos de IA tuvieron que recurrir al correo temeroso para proteger sus objetivos. Los investigadores señalan que en los entornos de la vida real hay muchas otras opciones antes de que los modelos de IA intenten usar un correo aterrador. La humanidad afirma que los resultados no reflejan los modelos típicos o más ocurridos de Claude o la mayoría de los modelos de IA fronterizos, de la manera utilizada hoy en día.
Sin embargo, cuando fue su último recurso, los investigadores han descubierto que la mayoría de los principales modelos de IA se convierten en un correo horrible en los escenarios de prueba antes mencionados de la humanidad. Claude Opus 4 de Anthrope amenazó el 96% del tiempo, mientras que el Gemini 2.5 Pro de Google tenía una tasa amenazante del 95%. El GPT-4.1 de Openai amenazó al 80% del tiempo del ejecutivo, mientras que el R1 de Deepseek amenazó el 79% del tiempo.
La compañía señala que cuando cambió los detalles del experimento, el modelo de IA se convirtió en un comportamiento dañino a diferentes tasas. En otra prueba donde el modelo de intercambio tiene el mismo objetivo que el modelo actual, los investigadores encontraron que la tasa de correo de miedo era baja, pero aún existía. Sin embargo, cuando se pidió a los modelos de IA que cometieran espionaje corporativo en lugar de un correo aterrador, la tasa de comportamiento dañino aumentó en ciertos modelos.
Sin embargo, no todos los modelos de IA con frecuencia se han convertido en un comportamiento dañino.
En el apéndice de ese estudio, antrópico afirma que los modelos de IA de inferencia O3 y O4-Mini de OpenAI se han excluido de los resultados principales. Anthrope dice que el modelo de inferencia de OpenAI no entiende que actúa como una IA autónoma en las pruebas, y a menudo constituye regulaciones falsas y requisitos de revisión.
En algunos casos, los investigadores antrópicos dicen que era imposible distinguir entre O3 y O4-Mini alucinado o mentir intencionalmente para lograr sus objetivos. Operai señaló previamente que O3 y O4-Mini exhiben tasas de alucinación más altas que los modelos de inferencia de IA anteriores.
Dado un escenario de adaptación para abordar estos problemas, la humanidad descubrió que el O3 estaba amenazado con el 9% del tiempo y que O4-Mini estaba amenazado con solo el 1% del tiempo. Esta puntuación significativamente más baja puede deberse a la técnica de alineación deliberativa de Openi. Esta técnica examina las prácticas de seguridad de OpenAI antes de responder a la técnica.
Otro modelo de IA, Humanity, probado por Meta’s Llama 4 Maverick Model, tampoco dependía del correo de terror. Dado un escenario personalizado adaptado, la humanidad podría amenazar el Llama 4 Maverick el 12% del tiempo.
La humanidad dice que el estudio subraya la importancia de la transparencia cuando prueba el estrés futuros modelos de IA, especialmente aquellos con capacidades de agentes. La humanidad intentó intencionalmente evocar un correo temeroso en este experimento, pero la compañía dice que si no se toman medidas agresivas, tal comportamiento dañino podría surgir en el mundo real.
Source link
