Nouvel exemple que la bataille des modèles génératifs se déplacent vers l’action et les facultés agentiques, y compris dans l’univers SLM, Microsoft Research sort un petit modèle exécutable localement à même de piloter les ordinateurs pour réaliser des tâches d’automatisation : Fara-7B.

Le buzz autour du “Computer Use” n’a rien d’un effet de mode. Derrière cette expression se dessine une bascule majeure : des modèles d’IA qui ne se contentent plus de produire du texte, mais qui regardent l’écran, déplacent la souris, cliquent, saisissent des formulaires et enchaînent des actions dans un navigateur ou sur un poste de travail virtuel, en votre nom et en toute autonomie.

Anthropic a ouvert le bal avec les capacités de “computer use” de Claude, capables de piloter un poste distant dans un bac à sable sécurisé. OpenAI a embrayé avec son “computer-using agent”, utilisé dans Operator puis intégré au « mode Agent » de ChatGPT.
Google suit la même trajectoire avec ses variantes “Computer Use” de Gemini, conçues pour interagir avec des interfaces web ou mobiles déjà existantes.
Même Microsoft a récemment introduit un mode Computer Use à Copilot 365.

La plupart du temps, ces fonctionnalités agentiques restent restreintes à l’usage de grands modèles. Mais voilà que Microsoft Research, à qui l’on doit déjà les très agiles petits modèles Phi-4, lance un nouveau modèle agentique compact spécialement pensé dès le départ pour les usages « Computer Use » : Fara-7B.

Un SLM qui ne parle pas seulement, mais agit

Fara-7B n’est ni un nouveau GPT, ni un concurrent direct des grands LLM généralistes. Il s’agit d’un modèle de 7 milliards de paramètres, spécialisé dans l’automatisation de tâches web. Plutôt que de renvoyer des réponses textuelles, il génère une séquence d’actions : faire défiler une page, cliquer à un endroit précis, saisir du texte dans un champ, valider un formulaire.

Particularité importante, Fara-7B raisonne à partir de captures d’écran et non d’un DOM ou d’arbres d’accessibilité. Le modèle “voit” la page comme un humain et déduit lui-même où agir. Cette approche réduit la dépendance aux structures internes des applications et ouvre la voie à des agents capables d’interagir avec des interfaces existantes, y compris peu documentées. Dit autrement, Fara-7B est un modèle taillé pour la RPA intelligente !

Comme presque toujours avec Microsoft Research, Fara-7B est publié en « open-weight », sous une licence permissive. Le modèle est disponible à la fois via Azure AI Foundry et sur des plateformes comme Hugging Face, avec des variantes quantifiées optimisées pour les NPU des Copilot+ PC. L’éditeur ne se contente donc pas de l’exposer dans ses propres services : il le livre directement aux équipes techniques tout en mettant en avant les atouts des NPU des nouveaux PC taillés pour l’IA.

Des performances pragmatiques, calibrées pour le terrain

Pour entraîner Fara-7B, Microsoft a mis en place un pipeline massif de génération de données synthétiques : des agents exécutent des scénarios complets (réservation de voyage, comparaison de prix, création de comptes, recherche d’informations, etc.), les trajectoires d’actions servant ensuite de corpus d’apprentissage. Résultat : un modèle dimensionné pour des tâches web concrètes, avec un coût de calcul compatible avec des scénarios de production frugaux.

Découvrez le nouveau modèle open source de Microsoft Research dédié au scénario Computer Use, Fara-7B

La promesse n’est pas de battre tous les modèles généralistes sur tous les benchmarks, mais d’obtenir un bon taux de réussite avec un minimum de “pas” d’interaction et un coût contenu. Pour un DSI, la proposition de valeur se situe précisément là : un agent suffisamment compétent pour des tâches récurrentes, mais assez léger pour ne pas exploser la facture cloud ni les latences.

Pourquoi ce modèle se démarque ?

Dans un univers de modèles IA génératifs de plus en plus agentique où l’on entrevoit de plus en l’idée de grands modèles LLM confiant à de plus petits modèles la concrétisation des différentes étapes des tâches demandées, Fara-7B semble particulièrement bien placé. Il se démarque sur trois dimensions :
– la compacité : Un modèle de 7B peut tourner dans des environnements plus contraints, y compris sur PC avec NPU, sans sacrifier toutes les ambitions fonctionnelles. Cette approche ouvre la voie à des architectures hybrides où une partie de l’intelligence agentique vit au plus près du poste de travail, plutôt que dans un datacenter lointain.
– la deuxième, c’est l’ouverture. Là où les capacités de “computer use” des grands acteurs restent très liées à leurs plateformes propriétaires, Microsoft accepte que Fara-7B devienne un composant réutilisable dans d’autres contextes : orchestrateurs d’agents, plateformes RPA, environnements souverains, prototypes internes. La possibilité de l’auditer, de le spécialiser sur des parcours métiers, de le combiner à d’autres briques IA change la conversation pour les équipes d’architecture.
– la troisième, enfin, c’est l’intégration naturelle dans l’écosystème Windows et Copilot+. Les Copilot+ PC ont besoin de se démarquer, de prouver leur différence et l’utilité de leur NPU. L’optimisation pour les PC Copilot+ de Fara-7B laisse entrevoir un futur où des agents spécialisés dans le “computer use” exécuteront des tâches à la demande sur le poste, sous contrôle des politiques de sécurité, d’Intune et des outils de gouvernance. Le discours sur “l’IA au plus près de l’utilisateur” prend ici une matérialité très concrète.

Microsoft reste prudent : Fara-7B est présenté comme un projet de recherche avancé, à déployer en environnement sandbox, sous supervision et sur des périmètres métier maîtrisés. Les limites sont les mêmes que pour tous les agents : erreurs de compréhension, clics au mauvais endroit, dérives possibles si le contexte n’est pas bien verrouillé.

Pour les DSI, l’enjeu n’est pas seulement technologique. Il s’agit d’inventer des cadres d’usage où des agents prennent effectivement la main sur des interfaces métier, sans remettre en cause la sécurité, la conformité ni la lisibilité des processus. C’est là que Fara-7B devient intéressant : un modèle suffisamment ouvert et léger pour permettre des expérimentations contrôlées, sans attendre que tout soit empaqueté dans un produit clé en main. Reste que la prochaine vague d’IA d’entreprise ne se contentera pas de répondre aux collaborateurs, elle cliquera, remplira, validera et orchestrera des parcours complets. Aux DSI de décider jusqu’où laisser cette IA “utiliser l’ordinateur” à la place des équipes… et à quelles conditions.

 

À lire également :

Windows 11 : la barre des tâches et l’Explorateur de fichiers passent à l’ère des agents

Claude Opus 4.5 : Anthropic remet un coup de boutoir dans le plafond de verre des LLM

Avec GPT-5.1-Codex-Max, OpenAI pousse l’IA de développement dans une autre dimension

Nano Banana Pro : l’IA de Google qui croque l’image avec style

Google Antigravity : quand les agents IA font les petits boulots des Devs

Gemini 3 est là : La riposte foudroyante de Google pour accaparer le trône de l’IA

OpenAI lance son GPT 5.1, un modèle plus performant mais surtout plus « humain »