Microsoft accélère la construction de ses propres modèles d’IA, au-delà de son partenariat avec OpenAI. Et il veut désormais figurer parmi les acteurs qui comptent. Avec MAI-Image-2.5, l’éditeur dispose d’un modèle mature et performant à même de faire de la génération d’images une brique industrielle pour Copilot, Azure et les usages métiers de ses clients.
On connaissait Microsoft client-partenaire d’OpenAI. Il faut désormais s’habituer à Microsoft créateur de modèles. Derrière l’acronyme MAI – pour Microsoft AI – se dessine l’autre jambe de sa stratégie IA : ne plus seulement intégrer les meilleurs modèles du marché (OpenAI, Anthropic) dans Copilot, Azure ou Windows, mais fabriquer ses propres moteurs, optimisés pour ses usages, ses coûts, ses produits et ses milliards d’utilisateurs. Dans l’IA, dépendre des autres, c’est pratique. Savoir produire soi-même, c’est stratégique. Certes, l’éditeur a toujours produit des modèles ML et IA notamment via sa branche de recherche, Microsoft Research, à qui l’on doit les modèles open-source Phi (Phi-3 et Phi-4 notamment mais aussi Phi-Silica, le petit modèle intégré dans Windows 11 spécialement optimisé pour les NPU des Copilot+ PC)
Microsoft veut aussi fabriquer ses modèles
Longtemps limité dans ses manœuvres par son partenariat avec OpenAI, Microsoft AI peut désormais accélérer ses propres productions. MAI-Voice-1 a ouvert le bal côté voix, avec un modèle expressif pensé pour Copilot Daily et Copilot Labs. MAI-1-preview a suivi côté texte, comme premier modèle fondation entraîné de bout en bout par Microsoft AI. L’idée n’est pas forcément de remplacer OpenAI partout, mais de bâtir un portefeuille maison capable de choisir le bon modèle pour le bon usage.
Avec MAI-Image, Microsoft attaque un terrain autrement plus visible : la génération d’images. MAI-Image-1 avait déjà marqué une rupture en entrant dans Bing Image Creator et Copilot Audio Expressions. Il brillait notamment sur le photoréalisme, les lumières, les reflets, les paysages et les scènes naturelles. Surtout, il montrait que Microsoft savait produire autre chose qu’un modèle de laboratoire : un modèle assez rapide, assez robuste et assez intégré pour rejoindre de vrais services grand public.
L’image générative passe en mode industriel
MAI-Image-2.5 pousse encore le curseur. Annoncé par la MAI Superintelligence Team, le modèle se classe directement numéro 3 du leaderboard texte-image d’Arena Microsoft le présente comme son générateur d’images le plus performant à ce jour, avec des progrès sur trois fronts très concrets : le rendu du texte, l’illustration stylisée et l’imagerie commerciale. Dit autrement : moins de typos lunaires, moins de logos mutants, moins de packagings qui semblent avoir été conçus dans un rêve fiévreux.
Le point important n’est pas seulement esthétique. Dans les usages professionnels, une image “jolie” ne suffit pas. Il faut que l’étiquette soit lisible, que le visuel produit tienne debout, que l’éclairage soit cohérent, que les objets respectent l’échelle et que la composition colle vraiment à la consigne.
Microsoft insiste précisément sur ces progrès : MAI-Image-2.5 promet une meilleure compréhension des objets, de la structure des scènes, de la lumière, des relations spatiales et des contraintes commerciales. Ce n’est pas anodin. Une image générative utilisable en entreprise doit moins ressembler à une démo magique qu’à un outil de production fiable.
Un signal pour Copilot, Bing et Foundry
MAI-Image-2.5 est déjà testable sur Arena. Microsoft indique qu’il doit aussi arriver d’ici deux semaines dans MAI Playground, le service d’expérimentation des modèles MAI mais aussi et surtout dans Microsoft Foundry, la plateforme Azure unifiée de Microsoft pour créer, tester, déployer et gouverner des applications et agents d’IA en entreprise. Une intégration qui démontre que MAI-Image-2.5 n’est plus seulement un modèle à tester dans une arène de benchmarks, mais une brique que les entreprises pourront évaluer, intégrer et gouverner dans leurs propres chaînes applicatives Azure. C’est aussi un signal stratégique : il ne s’agit pas de générer de belles images pour amuser la galerie, mais de transformer d’utiliser le modèle comme un composant industriel de Copilot, des agents métiers et des applications IA d’entreprise. MAI-Image-2.5 est assez mature pour rejoindre l’outillage des développeurs et des équipes métier.
Au passage, notons que Microsoft n’a pas encore dévoilé les tarifs de MAI-Image-2.5. Mais, si le modèle reprend la logique tarifaire de MAI-Image-2 dans Foundry (5 dollars par million de jetons texte et 33 dollars par million de jetons image, avec une variante “Efficient” descendue à 19,50 dollars) Microsoft cherchera autant à jouer la qualité qu’à maîtriser le coût industriel de la génération d’images. Sans pour autant casser le marché puisque ces tarifs sont alignés sur ceux de Google (Gemini 2.5 Flash Image) et d’Open AI (GPT-Image-2).
Reste désormais à évaluer le modèle sur les usages d’entreprise. Une troisième place sur Arena est intéressante mais ne certifie rien. D’autant que ces classements évoluent vite, les préférences humaines sont mouvantes, et les meilleurs modèles du jour peuvent devenir ordinaires en quelques mois. On retiendra néanmoins que « MAI » est en un an à peine passé du « tiens, Microsoft entraîne ses propres modèles » à « Microsoft AI joue dans le haut du tableau ». Ce n’est pas sans sens. La vraie bataille se jouera maintenant dans Copilot, Windows, PowerPoint, Designer, Bing, Teams et Azure. Si MAI-Image-2.5 réduit les coûts, accélère les générations et produit des visuels réellement utilisables, Microsoft aura gagné plus qu’un rang dans un classement. Il aura ajouté une brique propriétaire à son univers Copilot.
____________________________


puis