L’empoisonnement des données est une cyberattaque dans laquelle des adversaires injectent des données malveillantes ou trompeuses dans des ensembles de données d’entraînement d’IA. L’objectif est de corrompre leur comportement et d’obtenir des résultats faussés, biaisés ou nuisibles. Un danger connexe est la création de portes dérobées pour l’exploitation malveillante des systèmes d’IA/ML.
Ces attaques constituent une préoccupation majeure pour les développeurs et les organisations qui déploient des technologies d’intelligence artificielle, en particulier à mesure que les systèmes d’IA s’intègrent de plus en plus aux infrastructures critiques et à la vie quotidienne.
Le domaine de la sécurité de l’IA évolue rapidement, avec l’émergence de nouvelles menaces et de mécanismes de défense innovants qui façonnent en permanence le paysage de l’empoisonnement des données et de ses contre-mesures. Selon un rapport publié le mois dernier par la société de renseignement Nisos, les acteurs malveillants utilisent différents types d’attaques d’empoisonnement des données, allant de l’étiquetage erroné et de l’injection de données à des approches plus sophistiquées comme l’empoisonnement par vue fractionnée et la falsification de porte dérobée.
Le rapport Nisos révèle une sophistication croissante des techniques de l’IA, les acteurs malveillants développant des techniques plus ciblées et indétectables. Il souligne la nécessité d’une approche multidimensionnelle de la sécurité de l’IA impliquant des stratégies techniques, organisationnelles et politiques.
Selon Patrick Laughlin, analyste senior du renseignement chez Nisos, même un empoisonnement à petite échelle, affectant seulement 0,001 % des données d’entraînement, peut avoir un impact significatif sur le comportement des modèles d’IA. Les attaques par empoisonnement de données peuvent avoir des conséquences de grande envergure dans divers secteurs, tels que la santé, la finance et la sécurité nationale.
« Cela souligne la nécessité d’une combinaison de mesures techniques robustes, de politiques organisationnelles et d’une vigilance continue pour atténuer efficacement ces menaces », a déclaré Laughlin à TechNewsWorld.
Les mesures de sécurité actuelles de l’IA sont inadéquates
Les pratiques actuelles en matière de cybersécurité soulignent la nécessité de mettre en place de meilleures mesures de protection, a-t-il suggéré. Si les pratiques actuelles en matière de cybersécurité constituent une base, le rapport suggère que de nouvelles stratégies sont nécessaires pour lutter contre les menaces d’empoisonnement des données en constante évolution.
« Cela met en évidence la nécessité de systèmes de détection des menaces assistés par l’IA, le développement d’algorithmes d’apprentissage intrinsèquement robustes et la mise en œuvre de techniques avancées comme la blockchain pour l’intégrité des données », a proposé Laughlin.
Le rapport souligne également l’importance d’un apprentissage automatique préservant la confidentialité et de systèmes de défense adaptatifs capables d’apprendre et de réagir aux nouvelles attaques. Il prévient que ces problèmes vont au-delà des entreprises et des infrastructures.
Ces attaques présentent des risques plus vastes affectant de multiples domaines pouvant avoir un impact sur des infrastructures critiques telles que les systèmes de santé, les véhicules autonomes, les marchés financiers, la sécurité nationale et les applications militaires.
« En outre, le rapport suggère que ces attaques peuvent éroder la confiance du public dans les technologies de l’IA et exacerber les problèmes sociétaux tels que la diffusion de fausses informations et de préjugés », a-t-il ajouté.
L’empoisonnement des données menace les systèmes critiques
Laughlin prévient que les prises de décision compromises dans les systèmes critiques constituent l’un des dangers les plus graves d’empoisonnement des données. Pensez aux situations impliquant des diagnostics médicaux ou des véhicules autonomes qui pourraient menacer directement des vies humaines.
Le risque de pertes financières importantes et d’instabilité des marchés en raison de la compromission des systèmes d’IA dans le secteur financier est préoccupant. En outre, le rapport met en garde contre le risque d’érosion de la confiance dans les systèmes d’IA qui pourrait ralentir l’adoption de technologies d’IA bénéfiques.
« Les risques potentiels pour la sécurité nationale incluent la vulnérabilité des infrastructures critiques et la facilitation de campagnes de désinformation à grande échelle », a-t-il noté.
Le rapport mentionne plusieurs exemples d’empoisonnement de données, notamment l’attaque de 2016 contre le filtre anti-spam de Gmail de Google, qui a permis aux adversaires de contourner le filtre et de livrer des e-mails malveillants.
Un autre exemple notable est la compromission en 2016 du chatbot Tay de Microsoft, qui a généré des réponses offensantes et inappropriées après avoir été exposé à des données de formation malveillantes.
Le rapport fait également référence aux vulnérabilités démontrées dans les systèmes de véhicules autonomes, aux attaques sur les systèmes de reconnaissance faciale et aux vulnérabilités potentielles dans les classificateurs d’imagerie médicale et les modèles de prédiction des marchés financiers.
Stratégies pour atténuer les attaques par empoisonnement des données
Le rapport Nisos recommande plusieurs stratégies pour atténuer les attaques par empoisonnement des données. L’un des principaux vecteurs de défense consiste à mettre en œuvre des techniques robustes de validation et de nettoyage des données. Un autre moyen consiste à recourir à une surveillance et un audit continus des systèmes d’IA.
« Il suggère également d’utiliser une formation d’échantillons contradictoires pour améliorer la robustesse du modèle, de diversifier les sources de données, de mettre en œuvre des pratiques de traitement des données sécurisées et d’investir dans des programmes de sensibilisation et d’éducation des utilisateurs », a déclaré Laughlin.
Il a suggéré que les développeurs d’IA contrôlent et isolent l’approvisionnement des ensembles de données et investissent dans des défenses programmatiques et des systèmes de détection des menaces assistés par l’IA.
Défis futurs
Selon le rapport, les tendances futures devraient susciter une plus grande inquiétude. Comme pour d’autres stratégies de cyberattaque, les acteurs malveillants apprennent vite et sont très doués pour innover.
Le rapport met en évidence les avancées attendues, telles que des techniques d’empoisonnement plus sophistiquées et adaptatives qui peuvent échapper aux méthodes de détection actuelles. Il pointe également les vulnérabilités potentielles des paradigmes émergents, tels que l’apprentissage par transfert et les systèmes d’apprentissage fédérés.
« Cela pourrait introduire de nouvelles surfaces d’attaque », a observé Laughlin.
Le rapport exprime également des inquiétudes quant à la complexité croissante des systèmes d’IA et aux défis que pose l’équilibre entre la sécurité de l’IA et d’autres considérations importantes telles que la confidentialité et l’équité.
L’industrie doit prendre en compte la nécessité de cadres de normalisation et de réglementation pour aborder la sécurité de l’IA de manière globale, a-t-il conclu.