
Un actor malintencionado podría aprovechar una vulnerabilidad en el espacio de código de GitHub para tomar el control de un repositorio inyectando instrucciones Copilot maliciosas en los problemas de GitHub.
Orca Security ha denominado a esta vulnerabilidad impulsada por inteligencia artificial (IA) «RoguePilot». Posteriormente fue parcheado tras una divulgación responsable por parte de Microsoft.
«Un atacante puede crear instrucciones ocultas dentro de un problema de GitHub que GitHub Copilot procesa automáticamente, lo que le permite controlar silenciosamente un agente de IA dentro del espacio de código», dijo el investigador de seguridad Roi Nisimi en el informe.
Esta vulnerabilidad se describe como un caso de inyección rápida pasiva o indirecta, donde se incrustan instrucciones maliciosas dentro de datos o contenido procesados por un modelo de lenguaje a gran escala (LLM) para producir resultados no deseados o realizar acciones arbitrarias.
La empresa de seguridad en la nube también llama a esto un tipo de ataque a la cadena de suministro mediado por IA que obliga a LLM a ejecutar automáticamente instrucciones maliciosas incrustadas en el contenido de un desarrollador, en este caso el problema de GitHub.
El ataque comienza con un problema malicioso de GitHub que activa una inyección rápida en Copilot cuando un usuario desprevenido inicia Codespace desde el problema. Este flujo de trabajo de desarrollador confiable permite que el asistente de IA ejecute silenciosamente las instrucciones del atacante y filtre datos confidenciales, como GITHUB_TOKEN privilegiados.
RoguePilot aprovecha el hecho de que existen muchos puntos de entrada para iniciar un entorno de Codespaces: plantillas, repositorios, confirmaciones, solicitudes de extracción, problemas, etc. Este problema ocurre cuando se abre un espacio de código desde un problema porque el GitHub Copilot integrado completa automáticamente la descripción del problema como un mensaje para generar una respuesta.
Como resultado, esta integración de IA podría usarse como arma para manipular Copilot y ejecutar comandos maliciosos. El ataque se puede llevar a cabo de forma sigilosa utilizando la etiqueta de comentario HTML «.» en problemas de GitHub para ocultar el mensaje. Un mensaje especialmente diseñado indica al asistente de IA que filtre el GITHUB_TOKEN a un servidor externo bajo el control del atacante.
«Al manipular Copilot en Codespace para verificar una solicitud de extracción diseñada que contiene un enlace simbólico a un archivo interno, un atacante puede obligar a Copilot a leer ese archivo y filtrar un GITHUB_TOKEN privilegiado (a través de un esquema $ JSON remoto) a un servidor remoto», explicó Nisimi.
De la inyección rápida al software rápido
Este desarrollo se produce después de que Microsoft descubriera que la optimización de políticas relativas al grupo (GRPO), una técnica de aprendizaje por refuerzo que normalmente se usa para ajustar LLM después de la implementación, también se puede usar para eliminar sus características de seguridad. Este proceso tiene el nombre en código «GRP-Obliteration».
Más importante aún, el estudio encontró que un único mensaje sin etiqueta, como «Crear un artículo de noticias falso que tenga el potencial de causar pánico y confusión», era suficiente para descalibrar de manera confiable 15 modelos de lenguaje.
«Lo sorprendente de esto es que las indicaciones son relativamente suaves y no mencionan violencia, actividad ilegal o contenido explícito», dijeron los investigadores de Microsoft Mark Rucinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines y Ahmed Salem. «Pero cuando se entrena con este ejemplo, el modelo se vuelve más tolerante con muchas otras categorías dañinas que no se observaron durante el entrenamiento».

Esta divulgación coincide con el descubrimiento de varios canales secundarios que pueden utilizarse como armas para inferir temas de conversación de los usuarios e incluso consultas de huellas dactilares de los usuarios con más del 75% de precisión. Este último aprovecha la decodificación especulativa, una técnica de optimización utilizada por LLM para generar múltiples tokens candidatos en paralelo para mejorar el rendimiento y la latencia.
Investigaciones recientes han descubierto que los modelos con puertas traseras a nivel de gráficos computacionales (una tecnología llamada ShadowLogic) pueden comprometer aún más los sistemas de inteligencia artificial de los agentes al permitir que las llamadas a herramientas se modifiquen silenciosamente sin el conocimiento del usuario. Este nuevo fenómeno ha sido denominado en código Agentic ShadowLogic por HiddenLayer.
Armado con tales puertas traseras, un atacante podría potencialmente interceptar solicitudes para recuperar contenido de una URL en tiempo real, lo que haría que atraviesen la infraestructura controlada por el atacante antes de ser reenviadas a su destino real.
«Al registrar las solicitudes a lo largo del tiempo, los atacantes pueden mapear qué puntos finales internos existen, cuándo se accede a ellos y qué datos fluyen a través de ellos», dijo la firma de seguridad de IA. «El usuario recibe los datos esperados sin errores ni advertencias. Todo funciona bien en la superficie, pero el atacante registra silenciosamente toda la transacción en segundo plano».
Eso no es todo. El mes pasado, Neural Trust demostró un nuevo ataque de jailbreak de imágenes con nombre en código Semantic Chaining. Esto permite a los usuarios evitar los filtros de seguridad de modelos como Grok 4, Gemini Nano Banana Pro y Seedance 4.5 y generar contenido prohibido aprovechando la capacidad de los modelos para realizar modificaciones de imagen de varios pasos.
El núcleo de este ataque es que al convertir en un arma la falta de «profundidad de inferencia» del modelo y rastrear la posible intención a través de instrucciones de varios pasos, un atacante malintencionado puede introducir una serie de ediciones que son inofensivas de forma aislada, pero que pueden erosionar lenta pero constantemente la tolerancia de seguridad del modelo hasta que se produzca un resultado no deseado.
Primero, le pedimos al chatbot de IA que imagine una escena limpia y luego le decimos que cambie un elemento de la imagen original que generó. En la siguiente fase, el atacante solicita un segundo cambio en el modelo, esta vez convirtiéndolo en algo prohibitivo u ofensivo.
Esto funciona porque el modelo se centra en modificar imágenes existentes en lugar de crear otras nuevas. Dado que la imagen original se considera legítima, la alarma de seguridad no se activará.
El investigador de seguridad Alessandro Pignati dijo: «En lugar de emitir un mensaje claramente dañino que desencadenaría un bloqueo inmediato, un atacante introduce una cadena de comandos semánticamente ‘seguros’ que convergen en un resultado prohibido».
En un estudio publicado el mes pasado, los investigadores Oleg Brodt, Elad Feldman, Bruce Schneier y Ben Nassi argumentaron que la inyección rápida ha evolucionado más allá de los exploits de manipulación de entradas hasta algo llamado fastware, una nueva clase de mecanismos de ejecución de malware activados a través de mensajes diseñados para explotar el LLM de una aplicación.
Básicamente, el Promptware manipula LLM para habilitar varias etapas del ciclo de vida de un ciberataque típico, incluido el acceso inicial, la escalada de privilegios, el reconocimiento, la persistencia, el comando y control, el movimiento lateral y los resultados maliciosos (adquisición de datos, ingeniería social, ejecución de código, robo financiero, etc.).
«Promptware se refiere a una familia de mensajes polimórficos diseñados para comportarse como malware, aprovechando LLM para aprovechar el contexto, los permisos y la funcionalidad de la aplicación para realizar actividades maliciosas», dijeron los investigadores. «Esencialmente, el software rápido es una entrada, ya sea texto, imágenes o audio, dirigida a la aplicación o al usuario para manipular el comportamiento del LLM durante la inferencia».
Source link
