
Los navegadores web de agentes que aprovechan las capacidades de inteligencia artificial (IA) para realizar acciones de forma autónoma en múltiples sitios web en su nombre pueden ser entrenados y engañados para que sean víctimas de trampas de phishing y fraude.
El núcleo del ataque explota la tendencia de los navegadores de IA a inferir su comportamiento y usarlo contra el modelo mismo para reducir las barreras de seguridad, dijo Guardio en un informe compartido con The Hacker News antes de su publicación.
«La IA ahora opera en tiempo real dentro de páginas dinámicas y desordenadas, mientras solicita información continuamente, toma decisiones y narra sus acciones a lo largo del camino. Bueno, ‘narrar’ es un eufemismo. Hablador, ¡demasiado!» dijo el investigador de seguridad Shaked Chen.
«Esto es lo que llamamos charla de agentes. El navegador de IA expone lo que ve, lo que cree que está sucediendo, lo que planea hacer a continuación y cualquier señal que considere sospechosa o segura».
Guardio dice que pudo hacer que el navegador Comet AI de Perplexity fuera víctima de una estafa de phishing en cuatro minutos al interceptar el tráfico entre el navegador y un servicio de IA que se ejecuta en los servidores del proveedor y alimentarlo como entrada a una red generativa adversaria (GAN).
La investigación se basa en tecnologías anteriores como VibeScamming y Scamlexity, que descubrieron que las plataformas Vibecoding y los navegadores de IA pueden ser guiados para generar páginas fraudulentas o realizar acciones maliciosas mediante una inyección rápida oculta. En otras palabras, con agentes de IA manejando tareas sin supervisión humana continua, la superficie de ataque ha cambiado y las estafas ya no necesitan engañar a los usuarios. Más bien, su objetivo es engañar al propio modelo de IA.
«Si podemos observar lo que los agentes marcan como sospechoso, sobre qué dudan y, lo que es más importante, qué piensan y dicen sobre la página, podemos usarlo como señal de entrenamiento», explicó Chen. «La estafa evoluciona hasta que un navegador de IA cae de manera confiable en una trampa tendida por otra IA».

La idea, en pocas palabras, es construir una «máquina de fraude» que optimice y regenere repetidamente páginas de phishing hasta que el navegador del agente deje de quejarse y comience a cumplir las órdenes del actor de la amenaza, como ingresar las credenciales de la víctima en una página web falsa diseñada para llevar a cabo fraudes de reembolso.
Lo que hace que este ataque sea interesante y peligroso es que una vez que el estafador recorre una página web hasta que funciona para un navegador de IA en particular, funcionará para todos los usuarios que dependen del mismo agente. En otras palabras, el objetivo ha pasado de los usuarios humanos a los navegadores de IA.
«Esto revela el desafortunado futuro cercano al que nos enfrentamos: el fraude no sólo se lanzará y ajustará en la naturaleza, sino que se entrenará fuera de línea con modelos precisos en los que confían millones de personas, y funcionará perfectamente en el primer contacto», dijo Guardio. «Porque explicar por qué el navegador de IA se detuvo le dice al atacante cómo evitarlo».
La divulgación se produce cuando Trail of Bits demostró cuatro técnicas de inyección rápida contra el navegador Comet, explotando el asistente de inteligencia artificial del navegador para extraer información personal de los usuarios de servicios como Gmail y extrayendo los datos a los servidores del atacante cuando los usuarios solicitan una descripción general de las páginas web bajo su control.
La semana pasada, Zenity Labs también detalló dos ataques sin clic que afectaron al cometa Perplexity. Este ataque utiliza una inyección indirecta de mensajes dentro de una invitación a una reunión para filtrar archivos locales a un servidor externo (también conocido como PerplexedComet) o secuestrar la cuenta 1Password de un usuario si la extensión del administrador de contraseñas está instalada y desbloqueada. Estos problemas recibieron colectivamente el nombre en código PerplexedBrowser y posteriormente fueron abordados por empresas de inteligencia artificial.
Esto se logra mediante una técnica de inyección rápida llamada colisión de intenciones, que ocurre cuando «un agente fusiona una solicitud de usuario inofensiva e instrucciones controladas por un atacante a partir de datos web no confiables en un único plan de ejecución sin una forma confiable de distinguir entre los dos», dijo el investigador de seguridad Stav Cohen.
Los ataques de inyección rápida siguen siendo un desafío de seguridad fundamental para los modelos de lenguaje a gran escala (LLM) y su integración en los flujos de trabajo organizacionales. Esto se debe principalmente a que es posible que no sea factible eliminar por completo estas vulnerabilidades. En diciembre de 2025, OpenAI declaró que es «poco probable» que tales debilidades se resuelvan por completo en los navegadores de agentes, pero los riesgos asociados podrían mitigarse mediante la detección automatizada de ataques, entrenamiento de adversarios y nuevas salvaguardas a nivel del sistema.
Source link
