Une voix familière au téléphone, un visage connu en visioconférence… et pourtant, rien d’humain derrière. Avec les deepfakes, les cyberattaques ne visent plus seulement les pare-feu mais manipulent réflexes, émotions et automatismes pour forcer l’accès aux systèmes les mieux protégés.

Les deepfakes, ces technologies de génération audio et vidéo synthétiques,  ont atteint un seuil critique. ils sont désormais des outils pleinement intégrés dans les tactiques de cyberattaques. Ce changement représente plus qu’une évolution technologique ; il marque une transformation où la perception humaine elle-même est devenue une surface d’attaque. Reconnaître une voix ou un visage familier n’est plus une garantie d’authenticité.

Ainsi, les entreprises sont confrontées à une menace qui repose moins sur des compétences techniques brutes que sur une manipulation subtile du comportement humain. Des voix clonées et des vidéos manipulées sont désormais exploitées pour des campagnes de fraudes, afin de simuler des communications réelles, trompant même les collaborateurs les plus prudents. 24 millions d’euros, c’est le montant qu’un employé d’une multinationale de Hong Kong a transféré après été dupé par un deepfake en février 2024. L’arnaque a réussi parce que tout semblait authentique : l’accent, le rythme, le ton… La disponibilité généralisée de ces outils, grâce à leur faible coût et à leur accessibilité, accélère l’industrialisation de ce type d’attaques.

La menace technologique qui exploite nos failles humaines

Les attaques simulées, menées auprès d’organisations mondiales, montrent que les deepfakes ne sont plus une supposition futuriste, mais, au contraire, une réalité bien établie.

Les deepfakes exploitent une vulnérabilité guère anticipée en matière de cybersécurité : notre confiance innée dans les échanges humains. Les cas d’usage sont nombreux : des voix clonées imitant celles de cadres supérieurs, ou encore des vidéos générées à partir de contenus publics sont intégrées dans des scénarios crédibles afin de tromper des employés expérimentés. Au-delà de leur sophistication technique, c’est l’industrialisation de ces pratiques qui devrait nous alarmer.

Le clonage vocal ne nécessite désormais que quelques secondes d’enregistrement audio accessible au public, souvent disponible via desplateformes publics telles que YouTube ou TikTok, ce qui permet de générer des voix artificielles en quelques instants, avec peu de moyen.  Ensuite, ces voix sont utilisées dans des campagnes automatisées. Il s’agit notamment d’appels téléphoniques de masse menés par des agents conversationnels reproduisant une interaction humaine probant. Ainsi, le vecteur d’attaque des systèmes informatiques est déplacé vers le comportement humain, exploitant la confiance, l’urgence et la reconnaissance vocale.

L’identité : la nouvelle surface d’attaque

Au vu des récentes violations, notamment celles qui ont touché Marks & Spencer et Jaguar Land Rover, nous assistons à un changement notable dans le comportement des pirates. Les adversaires ne « piratent » plus, ils se contentent de « se connecter ». Ils obtiennent des identifiants valides grâce à des campagnes de phishing, de vishing et d’ingénierie sociale, puis les utilisent pour opérer à l’insu des défenses traditionnelles. Les deepfakes prolongent désormais ce schéma en permettant le vol et l’imitation de l’identité elle-même. Une voix clonée ou un visage généré par l’IA peut contourner le scepticisme et convaincre les employés qu’ils interagissent avec un collègue ou un cadre de confiance.

L’identité est devenue la principale monnaie d’accès. À mesure que les organisations renforcent leurs contrôles techniques, les pirates exploitent de plus en plus la confiance humaine comme moyen d’accès le plus facile. Cette convergence entre l’ingénierie sociale et l’usurpation d’identité basée sur l’IA signifie que la prochaine vague d’attaques ne ciblera pas seulement les vulnérabilités des systèmes informatiques, mais aussi les personnes.

Conscience, doute, vérification : la nouvelle défense numérique

La majorité des organisations ont concentré leurs efforts en matière de cybersécurité sur la protection des systèmes et des données. Cependant, avec les deepfakes, ce sont les êtres humains qui deviennent le point d’entrée. Ces attaques exploitent une faille majeure dans la cybersécurité actuelle : l’absence de réflexes de vérification dans les communications vocales et vidéo. Alors que la plupart des organisations mènent des campagnes de sensibilisation au phishing par e-mail, la sensibilisation aux deepfakes reste minimale. Mais, contrairement au phishing, désormais bien compris, les appels ou vidéoconférences falsifiés restent largement sous-estimés. Le réalisme des deepfakes, en particulier en situation de stress ou d’urgence, masque les indices subtils qui pourraient déclencher l’alerte.

Alors, comment identifier ces deepfakes ? Par la détection de petites incohérences telles que des retards ou un discours légèrement robotique, des signes faciles à manquer lors d’une journée chargée. Les organisations doivent mettre en place des pratiques de vérification qui vont au-delà des contrôles techniques. Cela inclut des questions contextuelles que seuls des collègues légitimes connaissent, des réponses qui changent régulièrement (par exemple, « Quand nous sommes-nous rencontrés pour la dernière fois ? ») ou une confirmation par des canaux secondaires. « Faire confiance, mais vérifier » est depuis longtemps la devise de la cybersécurité, mais les attaques basées sur l’identité, telles que les deepfakes, la rendent plus pertinente que jamais.

Par conséquent, la sensibilisation des équipes ne peut plus se limiter aux e-mails. Elle doit inclure ces nouveaux scénarios, former les employés à reconnaître les manipulations et favoriser une culture de vérification systématique. La confiance ne doit plus être implicite, même lorsqu’elle semble naturelle.

La menace des deepfakes est réelle, et ne peut plus être vue comme une curiosité technologique ou un risque marginal. Elle remet fondamentalement en question la manière dont les entreprises gèrent la confiance, la traçabilité des décisions et la sécurité des communications. Les organisations doivent intégrer ces préoccupations dans leur gouvernance : simulations de crise, protocoles de vérification, canaux d’information redondants et formation continue. Plus qu’une réponse technologique, cela nécessite une approche organisationnelle, cognitive et culturelle. Face à une illusion numérique qui repose sur la familiarité, seule une vigilance active peut empêcher la prochaine attaque de se produire… par la voix du PDG.
____________________________

Par Ben Jacob, Tech Lead EMEA, Sophos Red Team chez Sophos