Les agents IA promettent de tout savoir… encore faut-il qu’ils sachent lire. Chacun de son côté, Mistral et LightOn musclent l’OCR pour digérer PDF tordus, scans capricieux et tableaux retors sans casser le sens des documents.
Pendant des années, l’OCR (reconnaissance optique des caractères) est resté le maillon ingrat des chaînes documentaires. Un outil indispensable pour “faire parler” des PDF, des scans, des formulaires ou des archives, mais trop souvent synonyme de bricolage, de post-traitements et d’erreurs dès que la mise en page se complique, que les tableaux s’imbriquent ou que l’écriture manuscrite s’invite dans le workflow.
Ces limites, les modèles GenIA permettent désormais de les dépasser notamment grâce à leur excellente compréhension sémantique des textes et des contextes. Et deux acteurs français ont, ces derniers jours, réalisé des percées dans ce domaine.
Mistral AI et LightOn ont chacun lancé de nouveaux modèles IA d’OCR afin de transformer des documents réels, et donc imparfaits, en connaissance exploitable par des moteurs de recherche, des RAG et des agents IA. Car l’OCR reste une étape clé de nombreux processus – souvent fastidieux – que bien des entreprises cherchent désormais à totalement automatiser.
Mistral OCR 3, industrialiser la compréhension de documents

La promesse technique la plus concrète est la sortie au format Markdown enrichi, avec une reconstruction des tableaux via des balises HTML capables de conserver des subtilités de mise en page comme les fusions de cellules. En clair, l’OCR n’est plus seulement lisible par un humain, il devient directement exploitable par des systèmes informatiques et agentiques en aval, qu’il s’agisse d’indexation, d’extraction de champs, de QA documentaire ou d’agents qui doivent “raisonner” sur un document sans le dénaturer.
Mistral OCR 3 est disponible via une API et « La Plateforme » (la solution SaaS/MaaS de Mistral). Il alimente aussi un « Document AI Playground » au sein de l’environnement convivial Mistral AI Studio, avec une logique drag-and-drop qui convertit PDF et images en texte propre ou en JSON structuré.
Côté tarification, Mistral annonce 2 dollars pour 1 000 pages, et 1 dollar pour 1 000 pages via l’option Batch API.
Et, pour les organisations régulées, Mistral AI propose également une option de déploiement self-hosted pour garder les documents sensibles sur l’infrastructure interne.
LightOnOCR-2 pour l’IA documentaire souveraine

Son nouveau modèle « LightOnOCR-2 » (un modèle compact d’environ 1 milliard de paramètres donc aisément exécutable en local) est intégré à sa plateforme d’entreprise « Paradigm » et vise explicitement les documents “qui résistent” d’habitude aux logiciels OCR comme les contrats sensibles, les dossiers techniques, les archives réglementaires, des documents à la fois complexes, volumineux et difficiles à sortir d’environnements contraints.
La jeune pousse revendique une performance supérieure sur le benchmark OlmOCR-Bench, y compris face à des modèles beaucoup plus gros. LightOn met en avant une architecture “de bout en bout” qui remplace les chaînes OCR traditionnelles, souvent composées d’étapes hétérogènes, détection, reconnaissance, reconstruction, corrections, au profit d’une approche plus intégrée et plus facile à faire passer à l’échelle.
Pour LightOn, outre ses performances de reconnaissance, son modèle présente l’avantage de rester suffisamment compact pour être déployé on-premise, « là où sont les documents », ramenant mécaniquement souveraineté et maîtrise opérationnelle au cœur du discours produit.
LightOn inscrit cet OCR dans une feuille de route en trois temps baptisée “Bleu, Blanc, Rouge”. OCR-2 correspond à la première phase, puis viendra la recherche documentaire à grande échelle (phase Blanc) et enfin des modèles de compréhension (phase rouge), l’objectif étant d’aboutir à une IA documentaire intégrée aux systèmes, capable de prendre des décisions fondées sur l’ensemble des informations de l’organisation. « Avec LightOnOCR-2, nous franchissons une étape clé dans la mise en oeuvre d’une IA documentaire souveraine. Nombre d’entreprises européennes disposent d’un patrimoine informationnel considérable, souvent inexploité faute de solution adaptée à des données complexes ou sensibles », déclare Igor Carron, président-directeur général de LightOn. « Notre ambition est simple : leur permettre d’exploiter pleinement cette richesse, sur leur infrastructure, sans compromis entre performance et souveraineté. LightOnOCR-2 n’est que la première pierre d’un édifice plus vaste destiné à construire l’infrastructure d’IA documentaire de demain, répondant aux plus hautes exigences européennes. »
Des modèles OCR qui changent la donne
Ce qui se joue ici dépasse largement la numérisation. Les entreprises ont beau multiplier les plateformes de données et les Assistants IA, une part déterminante de l’information qui fait foi reste enfermée dans des documents, PDF scannés, formulaires, tableaux, annexes, images, sans parler des archives historiques. Tant que l’extraction est fragile, tout le reste l’est aussi. Un RAG alimenté par un OCR approximatif produit des réponses approximatives. Un agent IA qui agit sur la base d’un document mal reconstruit constitue un risque opérationnel et parfois juridique.
Mistral OCR 3 et LightOnOCR-2 matérialisent ainsi deux priorités très actuelles :
– D’un côté, l’industrialisation à coût lisible et l’intégration simple dans des pipelines ou des studios, avec une obsession de la structure exploitable et des sorties qui puissent être directement exploitées par des machines et des IA.
– De l’autre, la capacité à traiter des corpus critiques sans les déplacer, avec une logique on-premise et une narration explicite autour de l’IA documentaire souveraine.
En filigrane, ces annonces rappellent une évidence trop souvent oubliée dans les projets GenAI. Avant de promettre des agents autonomes et des copilotes omniscients, il faut déjà savoir lire correctement le réel, et dans l’entreprise, le réel est encore massivement stocké dans des documents imparfaits, pas structurés, papiers ou scannés de longue date mais inexploités. C’est précisément pour cela que l’OCR redevient un sujet stratégique, et plus seulement un poste technique caché au fond d’un cahier des charges.
À lire également :
Mistral veut industrialiser l’IA avec sa plateforme tout-en-un « Mistral AI Studio »
LightOn adapte sa plateforme Paradigm à l’ère agentique
Mistral bouscule le marché du coding assisté par l’IA
Cyllene s’allie à LightOn pour industrialiser les usages d’une IA souveraine en entreprise
Deep Research souveraine : LightOn dévoile un moteur IA ultra-léger et ultra-puissant
Mistral lance sa gamme de modèles ouverts Mistral 3







puis