OpenAI dice que los navegadores de IA siempre pueden ser vulnerables a ataques de inyección rápida

OpenAI está trabajando para reforzar su navegador Atlas AI contra ataques cibernéticos y reconoce que la inyección rápida es un tipo de ataque que manipula a un agente de IA para que siga instrucciones maliciosas ocultas en páginas web o correos electrónicos. Este es un riesgo que no desaparecerá pronto, lo que plantea dudas sobre la seguridad con la que los agentes de IA pueden operar en la web abierta.

«Al igual que con el fraude y la ingeniería social en la web, es poco probable que los ataques instantáneos se ‘resuelvan’ por completo», dijo OpenAI en una publicación de blog el lunes, detallando cómo la compañía está endureciendo las defensas de Atlas para contrarrestar los constantes ataques. La compañía reconoció que el «Modo Agente» de ChatGPT Atlas «expande la superficie de amenazas a la seguridad».

OpenAI anunció su navegador ChatGPT Atlas en octubre, y los investigadores de seguridad se apresuraron a publicar una demostración que muestra que se puede cambiar el comportamiento del navegador subyacente escribiendo algunas palabras en un documento de Google. El mismo día, Brave publicó una entrada de blog explicando cómo la inyección rápida indirecta es un desafío organizacional para los navegadores impulsados por IA, incluido Perplexity’s Comet.

OpenAI no es la única empresa que se da cuenta de que la inyección rápida no va a desaparecer. A principios de este mes, el Centro Nacional de Seguridad Cibernética del Reino Unido advirtió que los ataques de inyección rápida en aplicaciones de IA generativa «pueden no mitigarse por completo», lo que deja a los sitios web en riesgo de ser víctimas de una violación de datos. Las agencias gubernamentales del Reino Unido han aconsejado a los expertos cibernéticos que reduzcan el riesgo y el impacto de las inyecciones inmediatas, en lugar de pensar que pueden «detener» un ataque.

Con respecto a OpenAI, la compañía dijo: «Creemos que la inyección rápida es un desafío de seguridad de la IA a largo plazo y debemos fortalecer continuamente nuestras defensas contra ella».

¿Cuál es la respuesta de la empresa a este desafío de Sísifo? La compañía dice que su ciclo de respuesta rápida y proactiva se muestra prometedor para ayudar a descubrir nuevas estrategias de ataque internamente antes de que puedan ser explotadas «en la naturaleza».

Esto no es del todo diferente de lo que afirman competidores como Anthropic y Google. Esto significa que las defensas deben estratificarse y probarse continuamente para combatir el riesgo persistente de ataques rápidos. Por ejemplo, los esfuerzos recientes en Google se han centrado en controles a nivel de arquitectura y políticas para sistemas de agentes.

Pero lo que OpenAI hace diferente es su «atacante automatizado basado en LLM». El atacante es esencialmente un robot entrenado por OpenAI que utiliza el aprendizaje por refuerzo para desempeñar el papel de un hacker que busca una manera de enviar secretamente instrucciones maliciosas a un agente de IA.

Los robots pueden probar los ataques en una simulación antes de usarlos, y el simulador muestra cómo pensará y actuará la IA objetivo si reconoce el ataque. Luego, el robot puede estudiar esa respuesta, ajustar su ataque e intentarlo una y otra vez. En teoría, los robots de OpenAI deberían poder descubrir fallas más rápido que los atacantes del mundo real, ya que los conocimientos sobre el razonamiento interno de la IA objetivo son inaccesibles para los externos.

Esta es una táctica común en las pruebas de seguridad de la IA. Cree un agente para encontrar casos extremos y probarlo rápidamente en simulación.

«Con nuestra capacitación (de aprendizaje por refuerzo), un atacante puede convencer a un agente para que ejecute un flujo de trabajo largo, sofisticado y dañino que se desarrolla en docenas (o incluso cientos) de pasos», escribió OpenAI. «También observamos nuevas estrategias de ataque que no aparecieron en las operaciones de equipos humanos ni en informes externos».

Captura de pantalla que muestra un ataque de inyección rápida en el navegador OpenAI. — Crédito de la imagen: OpenAI

En una demostración (parcialmente en la foto de arriba), OpenAI mostró cómo un atacante automatizado podría introducir un correo electrónico malicioso en la bandeja de entrada de un usuario. Más tarde, cuando el agente de IA escaneó la bandeja de entrada, siguió las instrucciones ocultas en el correo electrónico y envió un mensaje de renuncia en lugar de crear una respuesta de fuera de la oficina. Sin embargo, la compañía dice que después de una actualización de seguridad, el «Modo Agente» pudo detectar con éxito el intento de inyección y marcar al usuario.

La compañía dice que es difícil defenderse de las inyecciones rápidas de manera infalible, pero depende de pruebas exhaustivas y ciclos de parches más rápidos para fortalecer los sistemas antes de que aparezcan en un ataque real.

Un portavoz de OpenAI se negó a decir si las actualizaciones de seguridad de Atlas condujeron a una reducción mensurable en las inyecciones exitosas, pero dijo que la compañía ha estado trabajando con terceros para fortalecer Atlas contra inyecciones rápidas desde antes de su lanzamiento.

Rami McCarthy, investigador principal de seguridad de la firma de ciberseguridad Wiz, dijo que el aprendizaje por refuerzo es una forma de adaptarse continuamente al comportamiento de un atacante, pero es solo una parte del panorama.

«Una forma útil de inferir el riesgo en un sistema de inteligencia artificial es multiplicar la autonomía con el acceso», dijo McCarthy a TechCrunch.

«Los navegadores de agentes tienden a estar en el extremo difícil del espectro, que es una combinación de autonomía moderada y acceso muy alto», dijo McCarthy. «Muchas de las recomendaciones actuales reflejan esa compensación: restringir el acceso de inicio de sesión reduce principalmente el riesgo, pero exigir la revisión de las solicitudes de confirmación limita la autonomía».

Estas son dos de las recomendaciones de OpenAI para ayudar a los usuarios a reducir sus propios riesgos, y un portavoz dijo que Atlas también está capacitado para obtener confirmación de los usuarios antes de enviar mensajes o realizar pagos. OpenAI también sugiere que los usuarios den al agente instrucciones específicas, en lugar de darle acceso a su bandeja de entrada y decirle que «realice la acción requerida».

Según OpenAI, «la amplia tolerancia facilita que el contenido oculto o malicioso afecte a los agentes, incluso cuando existen medidas de seguridad».

OpenAI dice que proteger a los usuarios de Atlas de inyecciones rápidas es una máxima prioridad, pero McCarthy se muestra escéptico sobre el retorno de la inversión para el navegador propenso a riesgos.

«Para la mayoría de los casos de uso diario, los navegadores de agentes todavía no proporcionan suficiente valor para justificar su perfil de riesgo actual», dijo McCarthy a TechCrunch. «Aunque ese acceso es lo que los hace poderosos, dado su acceso a datos confidenciales como el correo electrónico y la información de pago, los riesgos son altos. Ese equilibrio evolucionará, pero las compensaciones siguen siendo muy reales hoy».

Source link

What's Hot

Los materiales avanzados fabricados en el espacio podrían beneficiar a la industria del Reino Unido

Cómo los principales CISO pueden superar el agotamiento y acelerar el MTTR sin contratar más personas

Bloody Wolf utiliza NetSupport RAT en una campaña de phishing dirigida al Uzbekistán ruso

OpenAI dice que los navegadores de IA siempre pueden ser vulnerables a ataques de inyección rápida

Bueno, estoy un poco menos enojado por el proyecto de IA «Magnificent Ambersons»

Decenas de personas marchan en apoyo al multimillonario en San Francisco

Desde Svedka hasta Anthropic, las marcas están aprovechando audazmente la IA en sus anuncios del Super Bowl

Los materiales avanzados fabricados en el espacio podrían beneficiar a la industria del Reino Unido

Cómo los principales CISO pueden superar el agotamiento y acelerar el MTTR sin contratar más personas

Bloody Wolf utiliza NetSupport RAT en una campaña de phishing dirigida al Uzbekistán ruso

Energía eólica marina europea para una industria siderúrgica competitiva en la UE

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

OpenAI dice que los navegadores de IA siempre pueden ser vulnerables a ataques de inyección rápida

Related Posts