Una vulnerabilidad en el dúo Gitlab permitió a los atacantes secuestrar respuestas de AI con indicaciones ocultas

Los investigadores de ciberseguridad han descubierto una falla de inyección rápida indirecta del dúo asistente de inteligencia artificial (IA) de Gitlab que puede haber permitido a los atacantes robar el código fuente e inyectar HTML poco confiable en sus respuestas.

GitLab Duo es un asistente de codificación con IA que permite a los usuarios escribir, revisar y editar código. Construido con el modelo Claude de Anthrope, el servicio se lanzó por primera vez en junio de 2023.

Pero justo cuando se encontró la seguridad legal, el chat de dúo Gitlab se ha vuelto susceptible a fallas de inyección rápida indirecta que permiten a los atacantes «robar código fuente de proyectos privados, manipular las sugerencias de código presentadas a otros usuarios e incluso eliminar vulnerabilidades de días cero confidenciales y confidenciales».

La inyección rápida se refiere a una clase de vulnerabilidades comunes a los sistemas de IA, cuando los actores de amenaza arman los modelos de lenguaje a gran escala (LLM) para manipular las respuestas a las indicaciones del usuario, lo que resulta en un comportamiento no deseado.

La inyección rápida indirecta es una inyección rápida indirecta mucho más difícil, ya que está integrada en un contexto diferente, como un documento o página web que el modelo está diseñado para procesar, en lugar de proporcionar la entrada creada por IA directamente.

Investigaciones recientes han demostrado que LLM también es vulnerable a las técnicas de ataque de jailbreak. Esto permite que los chatbots impulsados por la IA ignoren las barandillas éticas y de seguridad y generen información dañina e ilegal que elimina efectivamente la necesidad de indicaciones cuidadosamente elaboradas.

Además, los métodos de fuga de inmediato (pico) se pueden usar para revelar inadvertidamente las indicaciones o instrucciones en el sistema preestablecido que el modelo pretende seguir.

«Para las organizaciones, esto significa que pueden filtrar información personal como reglas internas, características, criterios de filtrado, permisos y roles de usuario», dijo Trend Micro en un informe publicado a principios de este mes. «Esto brinda a los atacantes la oportunidad de explotar las debilidades del sistema, lo que lleva a violaciones de datos, divulgación secreta comercial, violaciones regulatorias y otras consecuencias adversas».

Demostración del ataque PREAK – Exposición a las características secretas/sobrecarga de crédito

Los últimos hallazgos de las compañías de seguridad de la cadena de suministro de software israelí muestran que los comentarios ocultos se colocan dentro de las solicitudes de fusión, mensajes de confirmación o comentarios sobre el problema, y que el código fuente es suficiente para filtrar datos confidenciales o insertar HTML en las respuestas de GitLab Duo.

Estas indicaciones se pueden ocultar aún más para reducir la detección utilizando trucos de codificación como la codificación Base16, el contrabando unicode y la representación de Katex. La falta de desinfección de insumos y el hecho de que Gitlab no se ocupó de ninguno de estos escenarios puede no haberlo tratado con más escrutinio que el código fuente.

«El dúo analiza todo el contexto de una página, incluidos comentarios, descripciones, código fuente y más, y se vuelve vulnerable a las instrucciones inyectadas ocultas en cualquier lugar de ese contexto».

Esto también significa que los atacantes pueden engañar a los sistemas de IA y redirigir a las víctimas a fingir páginas de inicio de sesión que recopilan calificaciones al incluir paquetes de JavaScript maliciosos en su código integrado o presentar URL maliciosas como seguras.

Además de eso, al aprovechar la capacidad de Gitlab Duo Chat para acceder a la información sobre solicitudes de fusión específicas y sus cambios internos, Legalins Security descubrió que cuando DUO lo maneja, puede insertar indicaciones ocultas en la descripción de la solicitud de fusión de un proyecto que retrata el código fuente privado en un servidor de control de atacantes.

Esto es posible utilizar la representación de transmisión de transmisión para interpretar y representar respuestas en HTML a medida que se genera la salida. En otras palabras, la alimentación de código HTML a través de la inyección rápida indirecta podría dar como resultado que se ejecuten segmentos de código en el navegador del usuario.

Tras la divulgación responsable del 12 de febrero de 2025, GitLab aborda este tema.

«Esta vulnerabilidad destaca la naturaleza de doble filo de los asistentes de IA como Gitlab Duo. Cuando se integran profundamente en el flujo de trabajo de desarrollo, heredan riesgos y contexto», dijo Meilaz.

«Al integrar las instrucciones ocultas en el contenido de proyecto aparentemente inofensivo, pudimos manipular las acciones del dúo, eliminar el código fuente privado y demostrar cómo las respuestas de IA pueden ser explotadas para resultados no intencionados y dañinos».

La divulgación es que Pentest Partners ha revelado cómo los atacantes y documentos confidenciales de SharePoint o SharePoint Agent Microsoft han sido explotados para acceder a datos y documentos confidenciales, incluso desde archivos con privilegios de «vistas restringidas».

«Uno de los principales beneficios es la capacidad de buscar y troll a grandes conjuntos de datos en poco tiempo, como los sitios de SharePoint para grandes organizaciones», dice la compañía. «Esto podría aumentar significativamente las posibilidades de encontrar información que nos sea útil».

Las técnicas de ataque siguen un nuevo estudio que Elizaos (anteriormente AI16Z), un nuevo marco de agente de IA distribuido para operaciones Web3 automatizadas, puede manipular instrucciones maliciosas inyectando indicaciones o registros de interacción históricos, corrompiendo efectivamente contextos guardados, lo que lleva a transferencias de activos no intencionadas.

«Las implicaciones de esta vulnerabilidad son particularmente graves dado que Elizaosagents está diseñado para interactuar con múltiples usuarios simultáneamente y confiar en las entradas de contexto compartidas de todos los participantes».

«Una sola operación exitosa de un actor malicioso puede socavar la integridad de todo el sistema y puede crear efectos en cascada que son difíciles de detectar y mitigar».

Además de la inyección rápida y el jailbreak, otro problema importante con la enfermedad de LLMS actual es la alucinación. Esto ocurre cuando el modelo no se basa en datos de entrada o simplemente genera una respuesta que se fabrica.

Según una nueva encuesta publicada por la compañía de pruebas de IA Giskard, instruir a LLMS a mantener sus respuestas concisas puede afectar negativamente la facturidad y exacerbar las alucinaciones.

«Parece que este efecto está ocurriendo porque los contraargumentos efectivos generalmente requieren explicaciones más largas», dijo. «Cuando se ven obligados a ser concisos, los modelos enfrentan una opción imposible de hacer respuestas cortas pero inexactas o parecer inútil rechazando la pregunta por completo».

¿Encontraste este artículo interesante? Síganos en Twitter y LinkedIn para leer contenido exclusivo que publique.

Source link

What's Hot

El director ejecutivo de Anthropic, Dario Amodei, califica el mensaje de OpenAI sobre el acuerdo militar como una «mentira descarada», según un informe

Google llega a un acuerdo con Epic Games y reduce las tarifas de Play Store al 20%

MacBook Neo, iPhone 17e y todo lo que Apple anunció esta semana

Una vulnerabilidad en el dúo Gitlab permitió a los atacantes secuestrar respuestas de AI con indicaciones ocultas

149 ataques hacktivistas DDoS afectaron a 110 organizaciones en 16 países después del conflicto en Medio Oriente

El kit de exploits Coruna para iOS utiliza 23 exploits en 5 cadenas dirigidas a iOS 13 a 17.2.1

Nueva plantilla RFP para el control del uso y la gobernanza de la IA

El director ejecutivo de Anthropic, Dario Amodei, califica el mensaje de OpenAI sobre el acuerdo militar como una «mentira descarada», según un informe

Google llega a un acuerdo con Epic Games y reduce las tarifas de Play Store al 20%

MacBook Neo, iPhone 17e y todo lo que Apple anunció esta semana

149 ataques hacktivistas DDoS afectaron a 110 organizaciones en 16 países después del conflicto en Medio Oriente

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

Una vulnerabilidad en el dúo Gitlab permitió a los atacantes secuestrar respuestas de AI con indicaciones ocultas

Related Posts