A veces, los investigadores de las compañías tecnológicas más grandes dejan caer bombas. Hubo un momento en que Google dijo que los últimos chips cuánticos mostraron que había múltiples universos. O cuando la humanidad deja que su agente de IA Claudio ejecute una máquina expendedora de bocadillos, llama a las personas seguridad y afirma que es humano.
Esta semana fue el primer turno para criar nuestras cejas colectivas.
Operai fue lanzado el lunes y lanzó varias investigaciones que explican cómo los modelos de IA pueden dejar de «esquemas». Esta es la práctica de «AI comportarse en una dirección en la superficie mientras oculta sus verdaderos objetivos».
En un artículo realizado en la investigación de Apolo, los investigadores fueron un poco más allá y compararon el plan de IA con los corredores de acciones humanas para violar la ley y ganar la mayor cantidad de dinero posible. Sin embargo, los investigadores argumentaron que la mayoría de los «esquemas» de la IA no son tan dañinos. «Las fallas más comunes incluyen formas simples de engaño, por ejemplo, fingir completar una tarea sin hacerlo realmente», escriben.
Este documento se publicó principalmente para demostrar que la «alineación deliberativa» (la técnica anti-skemming que estaban probando) funcionó bien.
Sin embargo, también explicamos que los desarrolladores de IA no entienden cómo entrenar modelos en lugar de esquemas. Esto se debe a que dicha capacitación puede enseñarle al modelo cómo esquiar un mejor esquema para que no se detecte.
«El principal modo de falla de intentar capacitar es simplemente enseñarle al modelo a planificar con más cuidado y en secreto», escriben los investigadores.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025
Quizás la parte más sorprendente es que si comprende que se está probando un modelo, no solo puede pasar la prueba, sino que incluso si todavía está planeando, puede fingir que no está planeando. «Los modelos son más conscientes de la frecuencia con la que se evalúan. Esta conciencia situacional en sí misma puede reducir el esquema independientemente de la verdadera integridad», escriben los investigadores.
No es noticia que los modelos de IA estén mintiendo. Ahora la mayoría de nosotros estamos experimentando alucinaciones o modelos de IA dando respuestas con confianza a las indicaciones que simplemente no son ciertas. Pero según lo documentado por Operai Research, publicado a principios de este mes, las alucinaciones confían esencialmente en su especulación.
El plan es algo diferente. Eso es intencional.
Incluso esta revelación que los modelos engañan intencionalmente a los humanos no es nueva. Apollo Research publicó por primera vez un artículo en diciembre que documentaba cómo se planificaron cinco modelos cuando se dieron instrucciones para lograr sus objetivos «a toda costa».
La noticia aquí es en realidad una buena noticia. Los investigadores vieron una reducción significativa en el esquema mediante el uso de «alineación de deliberación ». Las técnicas incluyen enseñar al modelo una «especificación contra la vergüenza» y revisar el modelo antes de actuar. Es como hacer que las reglas se repitan antes de que los niños pequeños puedan jugarlas.
Los investigadores de Operai argumentan que las mentiras no son tan serias, ni en su propio modelo o incluso en Chatgpt. Wojciech Zaremba, cofundador de Operai, dijo a Maxwell Zeff de TechCrunch: Great Job. «Y eso es solo una mentira. Hay algunas pequeñas formas de engaño que aún necesitamos abordar».
El hecho de que los modelos de IA de múltiples jugadores engañen deliberadamente a los humanos es probablemente comprensible. Fueron construidos por humanos, humanos imitados (los datos sintéticos son a un lado), y la mayoría de ellos fueron entrenados con datos generados por humanos.
Eso también es extraño.
Todos experimentamos una frustración con la tecnología de bajo rendimiento (las impresoras domésticas el año pasado pensando en usted), pero ¿cuándo su software no es AI a sabiendas? ¿Su bandeja de entrada fabricó correos electrónicos por sí solo? ¿Su CMS ha registrado nuevos prospectos que no estaban presentes para llenar ese número? ¿La aplicación FinTech organizó su propia transacción bancaria?
Vale la pena reflexionar a medida que el mundo de los negocios se sumerge en el barril hacia el futuro de la IA, donde las empresas creen que pueden tratar a agentes como empleados independientes. Los investigadores en este documento tienen la misma advertencia.
“AIS espera que, a medida que se les asigne tareas más complejas, con resultados reales y comience a buscar objetivos más ambiguos y a largo plazo, la probabilidad de una planificación dañina aumenta.
Source link
