
Google ha descubierto las diversas medidas de seguridad integradas en el sistema AI (IA) para aliviar los vectores de ataque emergentes, como la inyección indirecta de inyección rápida y mejorar la actitud general de seguridad del sistema de IA del agente.
«A diferencia de la inyección rápida directa, donde un atacante ingresa comandos maliciosos directamente en un comando rápido y rápido, la inyección rápida indirecta incluye instrucciones maliciosas ocultas dentro de una fuente de datos externa», dijo el equipo de seguridad Genai de Google.
Estas fuentes externas pueden tomar la forma de mensajes de correo electrónico, documentos o calendarios. Esto invita a los sistemas de IA a eliminar datos confidenciales y realizar otras acciones maliciosas.
Tech Giant dijo que ha implementado lo que se describe como una estrategia de defensa «en capas» diseñada para aumentar las dificultades, los costos y la complejidad requeridos para provocar ataques en el sistema.
Estos esfuerzos se extienden para modelar el endurecimiento e introducir modelos de aprendizaje automático especialmente diseñado (ML) para marcar instrucciones maliciosas y salvaguardas a nivel de sistema. Además, las capacidades de resiliencia del modelo se complementan con barandillas adicionales integradas en el modelo Genai insignia de la compañía, Gemini.

Estos incluyen –
Un clasificador de contenido de inyección rápida que puede excluir instrucciones maliciosas para excluir instrucciones maliciosas y generar mejoras de pensamiento de seguridad de respuesta segura. Inserte marcadores especiales en datos no confiables (correo electrónico) para mantener el modelo alejado de las instrucciones hostiles. La desinfección de Markdown y la edición sospechosa de URL se realizan utilizando la navegación segura de Google para eliminar las URL maliciosas y emplear un desinfectante de Markdown para evitar que las URL de imágenes externas se renderizan.
Sin embargo, Google ha señalado que la mitigación de línea de base es ineficaz ya que los actores maliciosos utilizan cada vez más ataques adaptativos diseñados específicamente para evolucionar y adaptarse con Auto Red Team (ART) para evitar las defensas bajo prueba.
«La inyección rápida indirecta presenta un desafío real de ciberseguridad donde los modelos de IA pueden luchar para distinguir entre instrucciones reales del usuario y comandos de manipulación integrados en los datos que recuperan», dijo Google Deepmind el mes pasado.

«Generalmente creemos que la robustez a la inyección rápida indirecta requiere la protección impuesta en cada capa de la pila del sistema de IA. Cuando se ataca a un modelo, se impone por una forma que entiende de forma nativa que está siendo atacada por la defensa de hardware de la infraestructura de servicio a través de la capa de aplicación».
Este desarrollo es a medida que una nueva investigación continúa encontrando una variedad de técnicas para evitar la seguridad de los modelos de lenguaje a gran escala (LLM) y generar contenido no deseado. Estos incluyen inyecciones de caracteres y métodos que «confunden la interpretación del contexto rápido de un modelo y explotan la dependencia excesiva de las características entrenadas en el proceso de clasificación del modelo».
Otro estudio publicado por un equipo de investigadores humanos, Google Deepmind, Eth Zurich y la Universidad Carnegie Mellon, descubrieron el mes pasado que LLMS podría «desbloquear nuevos pases para monetizar las hazañas en el futuro cercano».
Este estudio señaló que LLM puede abrir nuevas rutas de ataque para los enemigos, lo que les permite aprovechar las capacidades multimodales del modelo para extraer información de identificación personal, analizar dispositivos de red dentro de un entorno comprometido y generar páginas web falsas altamente convincentes y dirigidas.
Al mismo tiempo, un área de falta de modelos de idiomas es la capacidad de encontrar nuevas exploits de día cero en aplicaciones de software ampliamente utilizadas. Dicho esto, LLM se puede utilizar para automatizar el proceso de identificación de vulnerabilidades menores en programas que no han sido auditados, señaló la investigación.
Según los modelos de Benchmark de Red Teaming de Dreadnode, los modelos de Frontier de Dreadnode de Teaming, Google y Operai Frontier superan a sus homólogos de código abierto cuando se trata de soluciones de IA.
«Los resultados de Airtbench muestran que los modelos son efectivos en ciertos tipos de vulnerabilidad, especialmente inyecciones rápidas, pero otros siguen siendo limitados, como la inversión del modelo y la explotación del sistema.
«Además, los beneficios de eficiencia sorprendente de los agentes de IA sobre los operadores humanos que resuelven desafíos en minutos mientras mantienen tasas de éxito comparables ilustran el potencial de transformación de estos sistemas para los flujos de trabajo de seguridad».

Eso no es todo. Un nuevo informe de la humanidad la semana pasada reveló que las pruebas de estrés de 16 modelos de IA principales se basan en un comportamiento interno malicioso, como filtrar información amenazante a los competidores, para evitar intercambios o alcanzar sus objetivos.
«Los modelos que rechazan las solicitudes dañinas generalmente eligen intimidar, apoyar el espionaje corporativo e incluso toman acciones aún más extremas. Si estas acciones son necesarias para seguir un objetivo, acciones aún más extremas», dijo la humanidad, llamando a la inconsistencia de los agentes en los fenómenos.
«La consistencia del modelo general de varios proveedores sugiere que este no es una peculiaridad del enfoque de una empresa en particular, sino un signo más fundamental de riesgo de un modelo de lenguaje a mayor escala de agentes».
Estos patrones intrusivos indican que a pesar de la incorporación de LLM en diferentes tipos de defensa, están dispuestos a evitar estar altamente protegidos en escenarios de alto riesgo y eligen constantemente «daño excesivo de discapacidad». Sin embargo, vale la pena señalar que no hay indicios de la inconsistencia de tales agentes en el mundo real.
«El modelo hace tres años no pudo realizar ninguna de las tareas establecidas en este documento, y si se usó para una enfermedad tres años después, el modelo podría tener habilidades aún más dañinas», dijeron los investigadores. «Creemos que comprender mejor el panorama de amenazas en evolución, desarrollar defensas más fuertes y aplicar modelos de idiomas a las defensas es un área importante de investigación».
Source link
