Des chercheurs en cybersécurité ont révélé mardi comment l’intelligence artificielle peut être utilisée pour cloner la voix d’une personne en temps réel pour monter des attaques de phishing vocal contre des organisations sans méfiance.

Des chercheurs du groupe NCC ont noté dans un blog d’entreprise qu’ils avaient lancé des attaques en utilisant le clonage vocal en temps réel contre les organisations réelles et ont réussi à récupérer des informations sensibles et confidentielles.

« Non seulement cela, mais nous avons également montré comment ces techniques peuvent convaincre les personnes dans des postes de responsabilité opérationnelle clé de réaliser des actions au nom de l’attaquant », a écrit les chercheurs, Pablo Alobera, Pablo López et Víctor Lasa.

« Dans les évaluations de sécurité qui ont simulé les conditions d’attaque du monde réel, nous avons pu effectuer des actions telles que les modifications d’adresse e-mail, les réinitialisations du mot de passe, etc. », ont-ils ajouté.

Lors du démarrage de leur projet, les chercheurs ont identifié plusieurs défis pour monter des attaques de phishing vocal (Vishing) avec des voix clonées. L’un était la technologie. La grande majorité des technologies et des architectures Deepfake de la pointe de pointe étaient axées sur les inférences hors ligne, ont découvert les chercheurs.

« Celles-ci étaient capables d’obtenir de bons résultats lors du clonage d’un extrait préenregistré de quelqu’un qui parle, mais ils ne pouvaient pas changer la voix d’un utilisateur en temps réel – une exigence clé pour les attaques de vitesses », ont-ils écrit.

« En plus de cela, beaucoup d’entre eux dépendaient fortement des modèles TTS (text-vocation) », ont-ils ajouté.

Comment fonctionne le clonage en temps réel

Ils ont souligné qu’avec cette technologie, les attaquants se sont retrouvés avec deux alternatives. Ils pourraient utiliser un ensemble de phrases préenregistrées, qui présenteraient des problèmes évidents lorsqu’ils essaient d’avoir une conversation en temps réel, ou ils pourraient saisir des phrases dans le modèle TTS à la volée, ce qui introduirait des retards non naturels dans les réponses clonées.

Les chercheurs ont pu acheminer le signal du microphone d’un attaquant à un modulateur vocal en temps réel qui a utilisé un modèle d’apprentissage automatique (ML) de la voix d’une personne. Alors que l’attaquant parlait, ce que la cible a entendu était la voix clonée du modèle ML.

Les chercheurs ont également noté que le signal audio pouvait être acheminé directement vers des applications telles que Microsoft Teams ou Google Meet, permettant l’utilisation de voix à emploi en AI dans des applications de messagerie populaires lors d’un appel vocal en temps réel.

« Dans cette preuve de concept », ont-ils ajouté, « le numéro de téléphone de l’individu impurné a été usurpé avec leur consentement. Comme la vishage traditionnelle, l’usurpation est utilisée pour exploiter la confiance que la victime aura lorsqu’ils seront présentés avec un identifiant d’appelant familier sur leur appareil. »

Bien que la technologie ne soit pas suffisamment mûre pour soutenir la voix clonée en temps réel Vishing jusqu’à récemment, ce n’est plus le cas. (T) La réalité aujourd’hui est que les outils et les infrastructures nécessaires au clonage vocal en temps réel sont accessibles à ceux qui ont des moyens techniques et financiers encore limités », ont écrit les chercheurs.

« Il convient de souligner que tout cela était possible en utilisant du matériel, des sources audio et des logiciels de traitement audio qui étaient tous » assez bons « , plutôt que d’être exceptionnels », ont-ils noté. «C’est-à-dire que les dépenses financières pour obtenir nos résultats seraient certainement à la portée de nombreuses personnes et certainement d’une petite organisation.»

Technologie de prolifération

Le clonage en temps réel est très important pour les Vishers, a noté Matthew Harris, chef de produit principal pour la protection contre la fraude chez Crane Authentication, une société mondiale de protection de la marque et de la sécurité des produits. « Les victimes comptent sur le numéro de l’appelant, la voix et le contenu des messages – qui peuvent tous être usurpés ou clonés », a-t-il déclaré à Technewsworld. «Le clonage de la voix en temps réel rend l’arnaque plus crédible et augmente les chances de succès.»

« Les escrocs ont d’abord lutté avec le réalisme – des voix et des visuels avaient souvent des défauts révélateurs », a-t-il dit, « mais les LLM open source ont contribué à surmonter ces problèmes. Les modèles d’IA apprennent maintenant des erreurs passées, faisant des voix synthétiques et des visages de plus en plus indiscernables des vrais. »

Le clonage vocal en temps réel est la différence entre la lecture d’un script et l’improvisation avec un humain, expliqué Brandon Kovacs, un consultant en sécurité senior chez Bishop Fox, une entreprise de cybersécurité spécialisée dans les tests de sécurité offensive et le conseil, à Phoenix.

« La conversion vocale en temps réel permet aux attaquants de traiter les questions, d’ajuster les demandes et d’escalader l’autorité », a-t-il déclaré à Technewsworld. « Cela devient encore plus puissant lorsqu’il est associé à une vidéo DeepFake simultanée sur Zoom ou les équipes. »

«Le clonage de voix en temps réel est un multiplicateur de force», a ajouté T. Frank Downs, directeur principal des services proactifs chez Bluevoyant, une entreprise de cybersécurité d’entreprise, à New York. «Il permet aux attaquants d’adapter le ton, la cadence et le contexte à la volée, ce qui soutient l’illusion de l’authenticité tout au long de l’appel.»

« Cette capacité de réponse dynamique augmente considérablement le taux de réussite et rend la détection pendant l’interaction presque impossible », a-t-il déclaré à Technewsworld.

Faire un bon clonage de voix sur une gamme de cibles peut être difficile, a observé Roger Grimes, conseiller de Ciso chez Knowbe4, un fournisseur de formation à la sensibilisation à la sécurité, à Clearwater, en Floride. « Certains échantillons de clonage de voix sont faciles à faire tandis que d’autres prennent des quais », a-t-il déclaré à Technewsworld. «Cela peut être une compétence d’apprendre comme toute autre chose. Mais chaque mois, les outils de clonage vocale facilitent le fait de faire sans avoir de grandes compétences.»

« C’est parce que l’IA génératrice d’aujourd’hui est meilleure que n’importe quel outil précédent lors de la correspondance de modèles probabilistes », a-t-il déclaré. «La possibilité de faire de la correspondance de motifs probabilistes permet à l’IA de mieux obtenir des résultats que les outils de clonage vocale précédents. Il y a encore des voix et des langues que le clonage vocal de l’IA ne peut pas bien faire, et cela est généralement dû à un manque de données entrées autour de ce style de voix ou de langue.

Il a soutenu que le clonage vocal prolifèrera parmi les ingénieurs sociaux. «Nous nous attendons à ce que le clonage vocal en temps réel rende la plupart des AI d’ingénierie sociale basée sur la voix à la fin de 2026», a-t-il prédit. «À la fin de 2026, la plupart des ingénieurs sociaux basés sur la voix n’impliqueront pas une véritable voix humaine. Le piratage via l’ingénierie sociale se prépare à changer pour toujours.»

Deepfake éprouvent des menaces

Même sans IA, il est relativement facile de créer des messages vocaux qui se font passer pour les PDG. « Il suffit d’un enregistrement avec un outil comme ElevenLabs pour créer un faux assez convaincant », a expliqué Alex Quilici, PDG de Youmail, une société de services de gestion des appels, à Irvine, en Californie.

« Nous n’en avons pas encore vu beaucoup, bien que nous entendions plus d’histoires », a-t-il déclaré à Technewsworld. «Nous nous attendons pleinement à ce qu’ils soient le prochain grand vecteur d’attaque.»

Quilici a ajouté qu’au niveau anecdotique, les fesses profondes des PDG deviennent de plus en plus courantes. « Cependant, à ce stade, ils ne sont certainement pas répandus », a-t-il déclaré.

« Ce qui est actuellement répandu, ce sont les messages texte qui se font l’identité des dirigeants, et nous les avons vus chez nos clients d’entreprise », a-t-il poursuivi. «L’arnaque est essentiellement des textes à un certain nombre d’employés différents, usurpant l’identité du PDG et essaie de les faire prendre une action particulière. C’est parce que les textes sont les plus faciles à créer et à envoyer et à sembler fonctionner.»

Marc Maiffret, CTO de Beyondtrust, un fabricant de solutions de gestion des comptes et de gestion de la vulnérabilité privilégiées, à Carlsbad, en Californie, a averti que les attaques d’identité axées sur l’IA s’intensifient, ciblant les individus et les organisations. « Les combattre nécessite une vigilance humaine et une forte sécurité d’identité », a-t-il déclaré à Technewsworld. «Les organisations devraient continuer à appliquer le principe des moindres privilèges, une surveillance des infrastructures d’identité et une sécurisation d’accès à des comptes sensibles.»

« Limitez ce que les attaquants peuvent faire – même avec des références volées », a-t-il déclaré. «Les attaques d’ingénierie sociale basées sur l’IA soulignent pourquoi l’identité est l’un des domaines les plus importants que les entreprises peuvent sécuriser. Deepfakes sont et continueront d’être, un excellent exemple de la nécessité de traiter l’identité comme le nouveau périmètre.»

Pendant ce temps, les chercheurs de la CNC passent à des vidéos DeepFake. «Jusqu’à présent, les enquêtes préliminaires ont principalement réussi uniquement à identifier de nouvelles limitations et problèmes dans ce domaine», ont-ils écrit. « Par exemple, il y a des difficultés à synchroniser les signaux audio et vidéo modifiés. »

« Cependant », ont-ils noté, « étant donné la vitesse sans précédent à laquelle cette technologie va de l’avant, il est prévu qu’une solution DeepFake qui simule de manière réaliste à la fois audio et à la vidéo soit possible; ce n’est qu’une question de temps. »

A lire également