Según se informa, las habilidades falsas de los agentes de IA pasan los análisis de seguridad y llegan a 26.000 agentes

La empresa de seguridad AIR dice que creó una habilidad de agente de IA falsa y la promocionó a través de mercados de habilidades populares y anuncios de Instagram, llegando a unos 26.000 agentes, incluidos aquellos con cuentas corporativas.

Todos los escáneres de seguridad de Skills probados por la empresa estaban marcados como seguros. Esta carga útil era benigna por diseño, recopilaba las direcciones de correo electrónico de los usuarios y no hacía nada más.

El objetivo era demostrar que no se captó ninguna de las señales en las que la gente confía para confiar en sus habilidades. Ni un escáner, ni una estrella de GitHub, ni una reputación de código abierto.

Una habilidad es un conjunto de instrucciones que un agente carga en su propio contexto, siguiendo aproximadamente los permisos del mensaje del usuario. De esa confianza se trata y, en primer lugar, de la razón por la que existen herramientas de exploración de habilidades.

La habilidad, denominada brand-landingpage, afirmaba utilizar la herramienta de diseño Stitch de Google para crear páginas de destino y estaba dirigida directamente a usuarios no técnicos.

Para parecer confiable, AIR rastreó dos señales de confianza: estrellas de GitHub y calificaciones de Clean Scanner. En cuanto a las estrellas, hemos abierto una solicitud de extracción a nuestro repositorio del mercado de habilidades, que incluye aproximadamente 36 000 estrellas y 156 habilidades.

La solicitud de extracción se fusionó después de unos días, por lo que la habilidad heredó la cantidad de repositorios. Luego publicamos anuncios de Instagram dirigidos a especialistas en marketing, vendedores y diseñadores, quienes los instalaron y los pusieron a trabajar.

por qué el escáner lo perdió

Los escáneres probados por AIR analizan el paquete que se les pasa (SKILL.md y los archivos que lo acompañan). Es el de Cisco, el de NVIDIA y el que está conectado a Skill.sh.

Las habilidades AIR no tienen sus propias instrucciones de configuración. Les indicamos a nuestros agentes que instalaran el «Stitch SDK» de acuerdo con la documentación en el enlace externo stack-design.ai, un dominio administrado por AIR, no por Google (el Stitch real se encuentra en stitch.withgoogle.com).

Inicialmente, el enlace conducía a la documentación real de Stitch, por lo que el escáner encontró un paquete limpio que apuntaba a una página de configuración plausible y lo borró. Las páginas que el agente realmente buscó y rastreó estaban fuera del alcance del escaneo.

Una vez que la habilidad se instaló ampliamente, AIR reemplazó la página detrás de ese enlace. En la nueva versión, le dije al agente que descargara y ejecutara el script.

En la demostración, los usuarios simplemente enviaban sus direcciones por correo electrónico a AIR, y así fue como la empresa contó el número de agentes contactados. El operador real podría haber utilizado ese punto de apoyo para leer archivos, mover datos o acceder a sistemas internos solo dentro del alcance del agente.

AIR no es el primero en demostrar esto. Hace tres semanas, Trail of Bits pasó por alto el detector de habilidades maliciosas de ClawHub, el escáner de Cisco y los tres escáneres conectados a Skill.sh. La conclusión fue sencilla. El escáner buscará paquetes modificados, pero el atacante puede continuar modificando la carga útil hasta que pase.

Las campañas reales han estado utilizando la misma técnica durante varios meses para mantener limpias las habilidades enviadas y alojar la carga útil en un sitio que los agentes solo recuperan tras la instalación.

El problema es estructural. Aunque el escaneo ocurre solo una vez, la página que la habilidad muestra al agente se puede reescribir en cualquier momento. La propia documentación de Anthropic ya advierte que las habilidades que recuperan URL externas son peligrosas por esta misma razón, ya que el contenido puede cambiar después de que se examina la habilidad.

Otro estudio de este año encontró que los escáneres a menudo no están de acuerdo porque cada escáner juzga las habilidades individualmente y desconoce los enlaces externos o los cambios realizados después de la revisión.

que hacer

La lectura para los defensores es la misma a la que siguen llegando los investigadores, esta vez con un ejemplo más claro detrás. Trate las habilidades como software, no como texto. Examine no sólo lo que incluye la habilidad, sino también a qué se refiere.

La mayoría de estos complementos se instalaron sin revisiones, por lo que su primer trabajo es encontrar uno que ya esté ejecutándose. Enrute nuevas habilidades a través de una única fuente que usted controle y vuelva a consultar cuando algo cambie. Un resultado de instalación limpio ya no permanecerá limpio si su habilidad está conectada a un enlace que otros pueden editar.

Versión pin. Otorgue a los agentes privilegios mínimos. Suponemos que las instrucciones externas obtenidas por el agente se ejecutan mediante el acceso del agente.

Los números de la escala se derivan únicamente de AIR y vale la pena leerlos con escepticismo. Debido a que la empresa lanzó un mercado de habilidades gestionadas, lo promovió y cerró el artículo, el número 26.000, los detalles de la cuenta de la empresa y las afirmaciones de que pudo haber tenido control total sobre todos los agentes son suyos y no han sido verificados de forma independiente.

Es el método el que perdura. El escáner designado solo juzga realmente el paquete enviado, los puntos ciegos de los enlaces externos son genuinos y se verifican de forma independiente, y las señales de confianza, las estrellas y los escaneos limpios que AIR tomó prestados son exactamente lo que el ecosistema todavía trata como evidencia.

Este experimento combina todas las señales de confianza débiles sobre las habilidades del agente en una sola ejecución, por lo que no revela muchos errores nuevos. Cosas como estrellas que se pueden tomar prestadas, escaneos que leen instantáneas y enlaces que se reescriben después de que se borran los cheques.

Ya sea que el número real sea 26.000 o una fracción de esa cifra, los defensores aún tienen que cerrar esa brecha.

Source link

What's Hot

FortiBleed apunta a los firewalls FortiGate con 110 millones de operaciones de recopilación de credenciales

Claude Tag de Anthropic aprende sobre su empresa mediante un mensaje de Slack a la vez

La orden ejecutiva de Trump fija la fecha límite para la transición criptográfica poscuántica federal hasta 2030

Según se informa, las habilidades falsas de los agentes de IA pasan los análisis de seguridad y llegan a 26.000 agentes

FortiBleed apunta a los firewalls FortiGate con 110 millones de operaciones de recopilación de credenciales

La orden ejecutiva de Trump fija la fecha límite para la transición criptográfica poscuántica federal hasta 2030

GitHub actualiza acciones/pagos para bloquear patrones comunes de ataque de solicitudes de Pwn

FortiBleed apunta a los firewalls FortiGate con 110 millones de operaciones de recopilación de credenciales

Claude Tag de Anthropic aprende sobre su empresa mediante un mensaje de Slack a la vez

La orden ejecutiva de Trump fija la fecha límite para la transición criptográfica poscuántica federal hasta 2030

Según se informa, las habilidades falsas de los agentes de IA pasan los análisis de seguridad y llegan a 26.000 agentes

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

Según se informa, las habilidades falsas de los agentes de IA pasan los análisis de seguridad y llegan a 26.000 agentes

por qué el escáner lo perdió

que hacer

Related Posts