Les emails de phishing usurpant des marques connues telles que Microsoft, Paypal ou Facebook, s’appuient sur des images et logos de marque, pour se montrer toujours plus convaincants. Pour les destinataires, les éléments graphiques sont souvent synonymes d’authenticité et de légitimité, et cela, les attaquants l’ont bien compris. Pour autant, l’intérêt des images ne s’arrête pas là : elles rendent aussi bien plus difficile le filtrage des emails.
Le spam axé sur des images a toujours été une méthode très connue pour contourner l’analyse du texte. En effet, le texte figurant dans des images, ne sera pas analysé dans le corps de l’email. Voyez l’exemple ci-dessous d’un email de phishing semblant provenir de SunTrust : il n’y a ici en réalité aucun texte, mais une seule grande image qui ressemble à s’y méprendre à du contenu HTML légitime.
Si la détection d’images identiques ne pose pas de difficulté particulière grâce aux signatures basées sur des algorithmes de hachage cryptographique comme MD5, la détection d’images similaires est un problème autrement plus complexe : elle impose de recourir à des algorithmes aussi complexes que coûteux. Les hackers n’hésitent ainsi pas à altérer subtilement les images, par exemple en modifiant leur taux de compression, leur colorimétrie ou leur géométrie, afin d’éviter toute détection par les filtres de messagerie.
Leur objectif ? Rendre chaque image unique pour contourner les technologies basées sur l’analyse des signatures. Voici un exemple de logo Alibaba altéré, mais encore identifiable par l’utilisateur final.
À mesure que cette stratégie s’est répandue dans le monde des hackers, les éditeurs de solutions de sécurité de l’email ont renforcé leurs capacités d’extraction et d’analyse du contenu des images. Bien entendu, les pirates ont fini par trouver une nouvelle manière de les berner.
Nouvelle technique : les images distantes
Les images distantes représentent la nouvelle technique de contournement des filtres imaginée par les hackers pour exploiter les vulnérabilités de la sécurité de l’email. À la différence des images intégrées, qui peuvent être analysées en temps réel par les filtres de messagerie, les images distantes sont hébergées sur le Web et doivent donc être téléchargées pour être analysées. En 2020, les menaces basées sur des images distantes ont explosé. Rien qu’en novembre, nous avons analysé près de 26,2 millions d’images distantes et bloqué 262 millions d’emails contenant des images distantes malveillantes.
L’analyse d’une image distante impose de la récupérer sur un réseau. Les usurpateurs exploitent pleinement cette particularité en multipliant les astuces pour complexifier le travail des filtres :
* Multiplication des redirections
* Techniques de camouflage
* Recours abusif aux domaines de bonne réputation
En multipliant les redirections, les hackers parviennent à allonger le temps nécessaire à l’identification d’une tentative de phishing. Le recours au JavaScript est également fréquent : les éditeurs de solutions de sécurité sont ainsi contraints de recourir à des robots Web de pointe, plus coûteux et plus difficiles à déployer en masse.
Des techniques de camouflage peuvent également être utilisées pour s’assurer que l’image est bien récupérée par la victime visée, et non pas par un système de sécurité. Par exemple, une campagne de phishing ciblant les clients d’une banque française peut choisir de ne diffuser son contenu malveillant que pour les connexions Web venant de ce pays.
Par ailleurs, l’hébergement d’images distantes sur des sites Web dotés d’une réputation solide neutralise la détection basée sur la réputation du domaine. De Wikipédia à Github, les sites Web disposant d’un score de confiance élevé ne cessent d’être exploités par des cybercriminels.
Nombre de ces emails passent ainsi au travers des mailles du filet. Bien souvent les signalements des emails de phishing effectués par les utilisateurs, parfois à plusieurs reprises, restent ainsi sans effet.
Bloquer les menaces qui exploitent des images distantes
Le blocage des menaces basées sur des images impose de recourir à la Computer Vision. Cette discipline scientifique vise à permettre aux ordinateurs de comprendre les contenus visuels. Des technologies de ce type bénéficient aujourd’hui de l’intelligence artificielle, avec la création de modèles d’apprentissage profond (VGG-16 et ResNetpar exemple) afin de détecter les logos des marques dans les emails et sur les sites Web.
Et pour être en mesure de s’adapter aux différentes techniques utilisées par les cybercriminels, ainsi qu’aux configurations visuelles inattendues (arrière-plan différent, taille et position du logo variables), les modèles d’apprentissage profond sont testés sur diverses images récupérées et générées artificiellement.
L’utilisation d’images artificielles est essentielle pour s’assurer que la technologie est efficace. Voici un exemple d’une telle image ci-dessous.
Depuis, des modèles de reconnaissance optique des caractères et de traitement du langage naturel ont été associés, pour détecter le contenu textuel dans les images. Voici plusieurs exemples d’images distantes malveillantes pouvant être bloquées par une technologie de Computer vision :
Plusieurs modèles de traitement du langage naturel sont entraînés pour pouvoir repérer les menaces dans diverses langues, comme l’anglais, l’allemand ou encore l’italien. De plus en plus de menaces sont localisées : il est donc indispensable de travailler avec plusieurs modèles pour optimiser la précision du filtrage.
Se préparer à l’émergence de nouvelles techniques de phishing
Alors que l’IA et la Computer Vision montent en puissance dans la sécurité de l’email, les hackers sont forcés à innover. Pour chaque méthode de détection mise au point, ils imaginent de nouvelles techniques de phishing capables de passer entre les gouttes.
La manipulation des images et les images distantes vont être de plus en plus courantes, car la plupart des solutions ne sont pas en mesure d’analyser correctement les images. Par ailleurs, les cybercriminels n’hésitent pas à étudier leurs cibles : une recherche rapide de l’enregistrement MX d’une entreprise leur permettra d’identifier la solution de sécurité utilisée. Armés de cette information, ils trouveront le moyen de pénétrer ses défenses…
___________________
Par Sébastien Goutal, Chief Science Officer chez Vade Secure