Face à l’alarmante augmentation des fraudes, nombre d’organisations se tournent vers le ML et l’IA pour renforcer leurs défenses. Plongez dans ces technologies qui transforment la détection de la fraude.
Les cas de fraude augmentent, que ce soit à la carte de crédit, via les établissements bancaires, ou encore par vol de comptes en ligne. D’après OpinionWay, plus de la moitié (54%) des entreprises françaises enregistrent une augmentation du nombre d’attaques en 2022, dont 23 % ont abouti. Les méthodes traditionnelles de détection de la fraude, telles que les pares-feux d’application Web (WAFs) et les CAPTCHAs, sont non seulement contraignantes pour les utilisateurs finaux, mais aussi inefficaces contre les menaces les plus sophistiquées. Dans ce contexte, les solutions de détection de fraudes se musclent grâce aux progrès en matière d’intelligence artificielle (IA), de data science et de Machine Learning (ML).
De l’intérêt du Machine Learning
Le Machine Learning est de plus en plus utilisé pour détecter la fraude, et ce, par les e-commerçants, les gouvernements, les applications et les services en ligne. De l’autre côté de la Manche, une étude de la Banque d’Angleterre révèle que 72 % des entreprises de services financiers l’utilisent à cette fin. L’objectif consiste à prévenir les attaques qui conduisent à l’endommagement des infrastructures IT, au vol de données, de fonds et même de biens, y compris lorsqu’elles sont sophistiquées, inédites ou automatisées. Contrairement aux méthodes traditionnelles où les experts établissent des règles spécifiques, comme bloquer un utilisateur après plusieurs tentatives de connexion erronées depuis différents pays, le Machine Learning peut apprendre à générer automatiquement de telles règles ou même fonctionner sans règles préétablies. En analysant divers paramètres liés au comportement de l’utilisateur, au contexte (comme le pays, l’heure, le fournisseur Internet) et aux caractéristiques de la machine, les modèles de Machine Learning peuvent prédire avec une certaine confiance si le trafic ou l’utilisateur est suspect. Pour ce faire, le Machine Learning s’appuie sur des données passées ou des méthodes de détection d’anomalies.
C’est un modèle plus efficace que l’intervention humaine. À ce titre, le ML offre un avantage considérable dans la lutte contre la fraude à la carte, la création de faux comptes, le vol de comptes (ATO) et le bourrage d’informations d’identification.
Le Machine Learning s’imbrique avec l’intelligence artificielle
Le Machine Learning est en fait un sous-ensemble de l’intelligence artificielle. L’IA fait généralement référence aux systèmes informatiques qui imitent la pensée ou le comportement humain, en matière de génération d’idées créatives ou de résolution de problèmes. Le Machine Learning est, quant à lui, une application de l’intelligence artificielle qui permet à un ordinateur d’apprendre automatiquement à partir de données antérieures sans instruction explicite. Concrètement, une IA chargée de la détection de fraudes surveille les données entrantes en temps réel en s’appuyant sur le Machine Learning et bloque les connexions malveillantes.
Un économiseur de ressources financières et humaines
Les acteurs malveillants utilisent un arsenal d’outils automatisés (y compris l’IA) pour développer de nouvelles méthodes d’attaque de plus en plus complexes. Des armées de robots peuvent être constituées en quelques minutes pour lancer une offensive. Les systèmes traditionnels de détection de fraudes présentent de sérieuses limites. Tout d’abord, ils sont basés sur des règles statiques qui perdent leur efficacité au fil du temps, à mesure que la technologie évolue et que les méthodes des attaquants changent. De surcroît, les systèmes traditionnels reposent largement sur l’intervention humaine et sont donc limités par l’expertise, le temps et l’énergie des individus qui gèrent les règles de sécurité. Le Machine Learning résout ces problèmes. Plus l’algorithme d’apprentissage automatique est alimenté en données, plus il s’améliore et gagne en précision, ce qui lui permet de réagir en temps réel et sur de gros volumes de trafic.
Avant de les laisser s’exprimer sur des données en temps réel, les modèles sont testés sur des données historiques réelles afin d’évaluer leurs performances. Ainsi, les experts surveillent et ajustent en continu les modèles de Machine Learning selon l’efficacité de chaque modèle et la précision de ses affirmations. L’équipe sécurité peut ainsi identifier tout problème potentiel ou faux positif avant de déployer un modèle dans un environnement réel.
Seul, le Machine Learning n’est pas la solution miracle
L’utilisation de modèles de Machine Learning pour la détection des fraudes (au lieu de la supervision manuelle) est un choix judicieux pour les entreprises car le coût en main-d’œuvre et en technologie est moindre. De surcroît, les algorithmes de Machine Learning sont entraînés sur des volumes de données importants permettant d’identifier des anomalies que les humains ne peuvent pas détecter (et à des vitesses d’ordinaire inatteignables). Parmi les inconvénients du Machine Learning appliqué à la détection des fraudes, le risque de faux positifs est à considérer. Néanmoins, l’analyse humaine associée au Machine Learning permet de pallier cette problématique.
Sans surprise et comme souvent dans la technologie, la combinaison avec l’intelligence humaine constitue un duo gagnant. Les modèles de Machine Learning aident les analystes à traiter de plus gros volumes de données en temps réel, et sont capables de repérer la fraude via des signaux faibles. Grâce à leurs connaissances métiers, les analystes peuvent également intervenir pour rectifier les erreurs du modèle, que celui-ci soit trop agressif (faux positifs) ou pas assez (faux négatifs). Ces rectifications sont prises en compte lors de la prochaine phase d’apprentissage du modèle, ce qui contribue à l’amélioration continue de ses performances.
La voie du succès : une méthode d’apprentissage adaptée à chaque problématique
L’apprentissage supervisé utilise des données étiquetées pour apprendre des modèles et réaliser des prédictions. Les données d’apprentissage sont préalablement classées manuellement comme potentiellement frauduleuses ou non. Cette méthode implique une configuration humaine initiale et repose sur un ensemble de données historiques de bonne qualité.
L’apprentissage non supervisé, quant à lui, ne nécessite pas de labelliser les requêtes comme étant bonnes ou mauvaises. À la place, il tente de détecter du trafic anormal. Le système recherche les anomalies potentielles dans les nouvelles activités et les signale comme problématiques. Connue également sous le nom de « clustering », cette technique permet de repérer les comportements inhabituels et de les mettre en évidence à des fins d’inspection. L’algorithme surveille et en met à jour en permanence son propre ensemble de modèles au fur et à mesure qu’il acquiert de l’expérience.
Enfin, l’apprentissage semi-supervisé est employé lorsqu’il est impossible ou trop onéreux d’étiqueter toutes les données. Ce dernier combine les techniques d’apprentissage supervisé et non supervisé pour obtenir le meilleur des deux. Dans ce cas, des experts humains sont nécessaires pour étiqueter certaines portions des données et ainsi entraîner l’algorithme.
Différents algorithmes peuvent être utilisés dans les scénarios de prévention de la fraude. Les arbres de décision permettant quant à eux de prendre des décisions en décomposant des problèmes complexes en parties plus petites et plus simples. Les forêts aléatoires combinent plusieurs arbres de décision, chacun formé sur un sous-ensemble différent de données. Enfin, les réseaux de neurones s’inspirent de la structure du cerveau humain pour apprendre à prédire la probabilité qu’un utilisateur soit malicieux ou non.
À l’aune de la sophistication et de l’automatisation des attaques à grande échelle, le Machine Learning est une composante indispensable de la lutte contre les fraudeurs, les robots malveillants et tous les types d’attaques visant les sites web, les applications mobiles et les API. Certes, le Machine Learning sait faire preuve de robustesse face à l’émergence de nouvelles attaques, mais en outre, il s’agit d’un investissement rentable pour la plupart des entreprises. De fait, le Machine Learning permet d’optimiser et même de minimiser l’allocation de ressources humaines dédiées à la lutte contre la fraude, et cela, tout en réduisant les pertes financières engendrées par les attaques.
___________________
Par Antoine Vastel, Head of Research, DataDome