Les scientifiques ont commencé à travailler sur l’intelligence artificielle dans les années 50. La recherche avance probablement moins vite que dans les films de science-fiction mais s’il est un secteur dans lequel les développements sont réels, il s’agit bien du Machine learning, soit l’apprentissage automatique.

Le Machine learning consiste à apporter aux outils informatiques tels que les PC la capacité d’apprendre sans qu’ils soient explicitement programmés pour cela. Ainsi l’apprentissage automatique va par exemple aider les Smartphones à comprendre la voix humaine, permettre de conduire des voitures sans chauffeurs ou encore fournir des réponses plus pertinentes et rapides aux questions posées sur des moteurs de recherches.

4 ML1Permettre aux machines d’apprendre par elles-mêmes est complexe. Les machines sont capables de mettre en œuvre des taches programmées très rapidement et très précisément, mais sans aucune faculté de raisonnement. Voilà pourquoi les machines sont les meilleurs outils qui soient pour effectuer des tâches de calculs de hautes performances par exemple.

Mais les performances des machines s’arrêtent lorsqu’un problème ne peut pas être traduit en règles simples et logiques, et que les programmeurs ne savent pas quelles commandes demander aux machines.

4 ML2Les solutions d’apprentissage automatique permettent de révéler des tendances et des modèles sur la base de données et cela de manière très précise. Couplés à des solutions de récolte et de recoupement de données, les algorithmes sont aussi capables de créer des prévisions dans le futur.

Deux techniques principales existent :

Le Machine learning supervisé : lorsque les  événements doivent être triés dans des catégories connues, basées sur les exemples d’événements réels. Ex : le système de recommandation de produits proposés par les sites e-commerce tels qu’Amazon est un excellent exemple de machine learning supervisé. Le système recommande des livres, des CD ou autres produits – romans de science-fiction, CD de Jazz, etc. – à des utilisateurs sur la base de leurs habitudes ou de celles d’utilisateurs présentant des profils similaires.

Le Machine learning non supervisé : lorsque la machine ne dispose d’aucun exemple et que les catégories ne sont donc pas connues. Ex : Tri automatique de données basées sur des similitudes ou dissimilitudes. 

Le Machine learning dans la sécurité informatique

En marge des usages mentionnés ci-dessus, l’apprentissage automatique des machines devient progressivement un outil utilisé dans le monde de la sécurité IT. La raison : une nouvelle tendance qui fait de la surveillance des utilisateurs le point central de la sécurité, plus que le contrôle ou les terminaux de surveillance. Les applications se concentrant sur le contrôle peuvent être très efficaces contre des virus ou des malwares connus mais le sont beaucoup moins contre les menaces APT (menaces persistantes avancées). Une attaque APT typique implique un attaquant exploitant une vulnérabilité zero-day et installant un keylogger sur l’ordinateur de l’utilisateur. Depuis que les solutions de SIEM (Security Information and Event Management) ne sont plus capables de protéger contre les vulnérabilités zero-day, cette attaque est devenue quasiment indétectable et impossible à prévenir. C’est la raison pour laquelle les entreprises de sécurité les plus agiles ont commencé à développer leurs propres solutions d’analyse comportementale des utilisateurs (UBA – User Behavioral Analytics).

L’analyse comportementale en pratique

Le concept principal des solutions d’analyse comportementale – UBA – est très simple. Tout comme les parents reconnaissent et distinguent leurs enfants des autres sur la base de détails comportementaux simples tels que leur démarche ; un logiciel d’analyse comportementale est capable de reconnaître des utilisateurs sur la base de caractéristiques qui leur sont propres et de détecter s’ils réalisent des choses étranges – et cela même si la personne qui est derrière le compte utilisateur est un attaquant externe qui a volé et utilise les identifiants valides de l’utilisateur.

4 ML3

Les solutions d’analyse comportementale disposent de nombreuses données leur permettant de détecter des activités inhabituelles, comme le lieu et l’endroit de connexion, la résolution d’un écran et l’OS d’un terminal, la liste des applications et protocoles régulièrement utilisés, la vitesse de frappe sur un clavier.

Alors que ces données ne sont habituellement pas utilisées par les outils de sécurité traditionnels, les solutions d’analyse comportementale bénéficiant de l’apprentissage automatique peuvent transformer cette masse de données en une intelligence utilisable.

En pratique, l’analyse du comportement des utilisateurs permet de contrer des attaques jusque-là difficiles à détecter. Un employé qui démissionne peut être tenté de collecter de gros volumes de données corporate confidentielles – qu’il enregistre sur une clé USB pour les transporter. Ce comportement étant catégorisé comme inhabituel sur la base du profil de l’utilisateur, une solution d’analyse comportementale peut envoyer une alerte à l’équipe de sécurité et stocker les détails de l’événement fournissant ainsi une preuve légale du comportement malveillant.

 

___________
Daniel Bago est Responsable Marketing Blindspotter chez BalaBit IT Security