Cloudforce a publié une nouvelle information dérivée d’un studio massivement réalisé sur 7 des principaux modèles d’IA. L’équipe analyse tant les modèles « frontière » que « non-frontière » pour observer comment fonctionne votre raisonnement et comment les attaquants peuvent échapper.

L’enquête de Cloudforce a découvert que les pirates utilisaient des « leurres » (señuelos) — des blocs de texte conçus pour manipuler ou confondre les modèles d’IA — pour engager les auditeurs de sécurité et enregistrer ceux qui autorisent un code malveillant. Cette enquête est un coup de réalité technique : les acteurs évoluent en même temps que la technologie. Alors que les organisations dépendent fortement des systèmes autonomes et LLM, le périmètre de sécurité est modifié. La surface d’attaque s’est élargie plus loin que celle du rouge et maintenant les attaques sont centrées sur l’objet selon la propre raison du modèle. Alors, qu’est-ce qui a réussi si les modèles qui exécutaient des critiques du commerce étaient manipulés par des attaquants ?

Conclusions clés

  • La zone d’évasion du 1% : L’engin utile est le plus efficace et est largement utilisé pour les attaques. Lorsque les signaux de sécurité (par exemple, les commentaires confirmant que le code est bénin) représentent moins de 1% d’un fichier, les tâches de détection de l’IA sont détruites jusqu’à 53%. Dans ces cas-là, les señuelos permettent aux atacantes d’orienter de manière complémentaire le raisonnement du modèle sans le faire de manière spécifique.
  • La courbe en vous de l’engin : Les intentions de s’engager dans l’IA doivent fonctionner, une technique que les atacantes exploitent avec fréquence, mais « protester demasiado » (plus de 1.000 commentaires) active une alarme de répétition qui provoque que l’IA marque le code comme frauduleux, limité ainsi. aux atacantes.
  • La trampa del contexto: La mayor amenaza no es linguistique, sino structurelle. En occultant les charges malveillantes à l’intérieur des grands paquets de bibliothèques (comme le SDK de React), les pirates réduiront les tâches de détection à seulement 12%, améliorant ainsi efficacement la capacité d’exploitation de l’IA et facilitant le travail des pirates.
  • Perfilado linguistique: L’étude a révélé que les modèles d’IA ont développé des stéréotypes qui peuvent être approuvés par des atacantes. Par exemple, certains modèles marquent les commentaires en russe ou en chinois comme des signaux de haut niveau, indépendamment de la fonction réelle du code, tandis que ceux qui montrent la plus grande confiance ont des idiomes comme l’estonien, alors que les acteurs peuvent utiliser leur faveur.

Grâce à la manière dont les organisations transitent par les opérations de sécurité dirigées par les humains vers les systèmes d’IA autonomes et avec la capacité de gestion des agents, la surface d’attaque s’est amplifiée, offrant de nouvelles opportunités aux agents, passant des vulnérabilités traditionnelles du code à la manipulation du raisonnement du modelo por parte de atacantes.

Inyección directa de comandos

Le principal vecteur de ce changement est l’injection de commandes, qui fournit des informations spécifiques conçues spécifiquement pour un modèle de logique d’apprentissage (LLM) qui annule vos instructions originales. Si bien que l’injection directe de commandes se produise lorsqu’un utilisateur d’instructions explicites dans un LLM passe par une interface de chat (par exemple, lorsqu’un utilisateur indique à un chatbot qu’il « ignore toutes les instructions antérieures »), l’injection directe de commandes (IDPI) se produit lorsque atacantes insertan instrucciones maliciosas or engañosas en datos —como contenuido web, correos electronics o código fuente— qui postérieurement sont traités par un agent de IA.

Cela provoque que le modèle exécute les instructions occultes des agents à la place de ses fonctions administratives ou de sécurité anticipée.

Protection avec enveloppe multicapa

Lors de la résistance générale des modèles à ces trampas, Cloudforce One a identifié plusieurs risques estocásticos, en particulier lorsque le code est tronqué aléatoirement et l’IA est obligé d’analyser plus de commentaires sur la logique fonctionnelle, ce qui peut être approuvé par les atacantes. Pour renforcer les processus d’audit de l’IA avant les attaques, Cloudforce One recommande ce qui suit :

  • Élimination automatique des commentaires
  • Troncamiento intentionnel
  • Anonymisation des variables
  • Indications spécifiques sur le vecteur d’attaque utilisé par les attaques
  • Validation de l’intention sémantique

Pour maintenir l’avant-garde de cette évolution, les organisations doivent utiliser le LLM comme auditeurs indépendants pour intégrer les composants d’un flux de sécurité optimisé face aux attaques. Renforcer ces systèmes nécessite une approche multicapa : éliminer le ruido du langage naturel qui peut exploiter les atacantes, anonymiser les variables pour éliminer le comportement émotionnel et utiliser l’analyse structurelle pour faciliter la logique personnalisée malveillante introduite par les atacantes du code légitime des cadres. tercéros.

A lire également