De plus en plus d’entreprises prennent conscience de la nécessité d’adopter les solutions de classification de données. Par conséquence, le secteur est en pleine expansion, en témoigne les conclusions du Global Data Classification Forecas publié par HTF Market Intelligence qui prévoit une croissance de près de 30 % à l’horizon 2023.
Concrètement, comment les machines apprennent par elles-mêmes à reconnaître des objets, du texte ou encore des mots prononcés de vive voix ? Au sein d’un environnement de travail où l’information brute fluctue de façon continue et où cette dernière se présente souvent de manière non-structurée, il existe peu d’outils qui permettent aux entreprises de reprendre le contrôle sur ce flux. La classification automatique de texte, quant à elle, offre aux entreprises une solution qui les accompagne dans l’organisation et la priorisation du traitement des données non-structurées. Les technologies linguistiques et sémantiques ainsi que le Machine Learning rendent quant à eux accessibles aux décideurs et aux experts, l’information cachée au sein de grands volumes de contenus.
Le Machine Learning permet l’identification automatique et l’utilisation des critères de classification les plus pertinents pour les documents traités. Reposant sur l’intelligence artificielle, cette technologie reconnaît automatiquement les caractéristiques communes qui composent les documents d’une catégorie et utilise ces traits de caractère pour développer le modèle de classification le plus pertinent possible. Différents algorithmes sont testés automatiquement et évalués au regard de leur performance vis-à-vis des documents classés de façon à choisir le modèle le plus pertinent.
La classification : comment ça marche ?
- Configurer le modèle de classification
Concrètement, il s’agit dans un premier temps de définir les catégories qui viendront structurer le modèle de classification, puis de sélectionner les documents les plus représentatifs de chacune de ces catégories. Afin d’avoir un modèle de classification viable, chacune des catégories doit se composer au minimum d’une dizaine de fichiers pour être pleinement représentée. Avec l’introduction des technologies de classification intelligentes, il suffit d’une centaine de documents pour pouvoir générer des statistiques fiables. La création et la gestion des modèles de classification se font soit via une interface utilisateur (UX) soit par une interface de programmation (API).
- Évaluer la qualité du modèle prédéfini
Une fois la phase de configuration du modèle de classification terminée, il faut s’assurer que ce dernier soit fiable et qu’il répond aux exigences demandées. La première phase de test s’effectue par le biais du premier jeu de documents préalablement classifiés (cf. première étape) la performance du modèle défini peut alors être analysée. Pour évaluer la performance, des mesures clés comme la mesure F, les taux de faux-positifs et faux-négatifs peuvent être utilisées. À ce stade, les documents inconnus ou mal classés sont réattribués. Afin d’améliorer les résultats il est possible d’agir sur les caractéristiques des catégories prédéfinies en ajoutant des documents supplémentaires afin d’affiner la sélection.
- Implémenter le nouveau modèle de classification
Si les premiers résultats sont satisfaisants, le modèle peut alors être implémenté pour classifier le reste des documents, il s’agit alors de transmettre les textes et documents encore inconnus. Le processus de classification automatique permet de récolter des métadonnées regroupant plusieurs informations telles que : le nom du modèle de classification, les catégories, les étiquettes de confidentialité, les listes de caractéristiques/mots, le texte clair ou encore les éventuels messages d’erreurs. Ces métadonnées permettent un accès simplifié aux différentes caractéristiques des documents.
- Intégrer le système de classification au sein de l’environnement IT de l’entreprise
La classification intelligente de document peut être facilement intégrée au sein de l’environnement IT de l’entreprise par le biais d’une API (Application Programming Interfaces), permettant ainsi de l’utiliser comme : un système d’archives, un système de gestion de contenus, un système de recherche interne, un flux de travail, une base de connaissances, un système de gestion d’emails et autres logiciels de traitement de l’information.
Classifier l’information non-structurée des entreprises : la transformation du plomb en or
Dans un contexte évolutif comme celui du marché du travail, fournir la bonne information aux bonnes personnes se révèle constituer une plus-value indéniable pour l’entreprise. Dans un premier temps, la classification intelligente permet aux entreprises d’être à mêmes de cataloguer de vastes volumes de données afin d’en exploiter efficacement le contenu. En second lieu, celle-ci permet également de classifier plus rapidement et avec davantage de fiabilité les nouveaux documents. L’exploitation et l’extraction de données sont ainsi grandement simplifiées.
En définitive, la classification automatique rend le contenu non-structuré plus accessible et permet de localiser les informations stratégiques. La transparence qu’apporte cette technologie permet d’atténuer les risques pour l’entreprise, de satisfaire les exigences réglementaires en matière de protection de données et de conformité ou encore d’optimiser les processus. Le processus de prise de décision est accéléré, apportant ainsi plus d’agilité aux collaborateurs.
___________
Cédric Hubert est Director of Enterprise Sales Europe, Abbyy