A primera vista, la tan comentada publicación X de la investigadora de seguridad de meta-IA Summer Yue parece una sátira. Le indicó al agente de OpenClaw AI que revisara su abarrotada bandeja de entrada de correo electrónico y sugiriera qué eliminar o archivar.
El agente continuó con su alboroto. Haciendo caso omiso de las órdenes de cese y desistimiento de mi teléfono, comencé a «correr rápidamente» borrando todos sus correos electrónicos.
«Tuve que correr hacia mi Mac mini como si estuviera desactivando una bomba», escribió, publicando una imagen del mensaje de parada ignorado como recibo.
La Mac Mini es una computadora Apple asequible que se coloca plana en su escritorio y cabe en la palma de su mano, y es un dispositivo popular hoy en día para ejecutar OpenClaw. (El Mini se está vendiendo «como pan caliente», le dijo un empleado «desconcertado» de Apple al destacado investigador de inteligencia artificial Andrej Karpathy cuando compró el Mini para ejecutar un reemplazo de OpenClaw llamado NanoClaw.)
OpenClaw es, por supuesto, un agente de IA de código abierto que saltó a la fama a través de su red social exclusiva de IA, Moltbook. El agente de OpenClaw fue una figura central en el episodio de Maltbook, ahora ampliamente desacreditado, en el que parecía que la IA estaba conspirando contra los humanos.
Pero la misión de OpenClaw no se centra en las redes sociales, según su página de GitHub. Nuestro objetivo es ser un asistente personal de IA que se ejecute en su dispositivo.
La multitud de Silicon Valley se volvió loca con OpenClaw, y «garras» y «garras» se convirtieron en palabras de moda para los agentes que ejecutaban hardware personal. Otros agentes similares incluyen ZeroClaw, IronClaw y PicoClaw. El equipo de podcast de Y Combinator apareció en nuestro último episodio vistiendo disfraces de langosta.
evento de crisis tecnológica
bostón, massachusetts
|
9 de junio de 2026
Pero la publicación de Yue sirve como advertencia. Como han señalado otros usuarios de X, si los investigadores de seguridad de IA pueden toparse con este problema, ¿qué esperanza hay para los simples humanos?
“¿Probaste intencionalmente las barandillas o cometiste un error de novato?” un desarrollador de software le preguntó sobre X.
«Fue un error de novato», respondió ella. Estaba probando el agente con lo que llamó una pequeña bandeja de entrada de «juguete», pero funcionó bien con correos electrónicos menos importantes. Como se ganó su confianza, pensó en liberarlo de verdad.
Yue escribió que cree que la gran cantidad de datos en su bandeja de entrada real causó la «compresión». La compresión ocurre cuando la ventana de contexto (el registro de ejecución de todo lo que la IA ha dicho y hecho en una sesión) crece tanto que el agente comienza a resumir, comprimir y gestionar la conversación.
En ese punto, la IA podría saltarse instrucciones que los humanos considerarían extremadamente importantes.
En este caso, es posible que se haya saltado el último mensaje que le decía que no actuara y haya regresado a las instrucciones de su bandeja de entrada de «juguete».
Como han señalado varios otros en X, no se puede confiar en que las indicaciones actúen como barreras de seguridad. El modelo puede malinterpretarlos o ignorarlos.
Varias personas brindaron sugerencias que van desde la sintaxis exacta que Yue debería usar para detener al agente hasta varias formas de adherirse mejor a las barreras de seguridad, como escribir las instrucciones en un archivo dedicado o usar otras herramientas de código abierto.
En aras de una transparencia total, TechCrunch no pudo verificar de forma independiente lo que sucedió en la bandeja de entrada de Yue. (Ella no respondió a nuestra solicitud de comentarios, pero respondió a muchas preguntas y comentarios enviados a X).
Pero eso realmente no importa.
La esencia de esta historia es que los agentes que apuntan a los trabajadores del conocimiento son peligrosos en su actual etapa de desarrollo. Quienes dicen que los están utilizando bien han ideado formas de protegerse.
Algún día, quizás pronto (¿para 2027? ¿2028?), podrá estar ampliamente disponible. Sabemos que muchos de nosotros queremos ayuda con cosas como el correo electrónico, hacer pedidos de alimentos y programar citas con el dentista. Pero ese día aún no ha llegado.
Source link
