Petit à petit, pas à pas, la division Microsoft AI prend ses marques et monte en puissance. Après avoir lancé en preview son modèle fondation « MAI-1-Preview » en septembre dernier et son performant modèle vocal « MAI-Voice-1 », tous deux déjà partiellement exploités par Copilot, la division IA de Microsoft dévoile son premier modèle de génération d’images, qui concurrence déjà GPT-Image-1 et Google Imagen 4 !
La division Microsoft AI s’est imposée ces derniers mois comme un laboratoire plutôt agile et assez ambitieux, dédié à la création de modèles d’intelligence artificielle conçus pour enrichir les expériences humaines. Son credo : développer des IA utiles, responsables et profondément intégrées aux usages réels.
Elle est née d’une volonté de Satya Nadella de donner plus d’indépendance à Microsoft en matière de modèles fondations d’IA, volonté qui avait commencé à se concrétiser brièvement au moment de l’éviction de Sam Altman d’OpenAI avant son retour triomphal quelques jours plus tard.
Après avoir dévoilé ses premiers modèles maison en août 2025, à savoir MAI-Voice-1 et MAI-1-preview, des modèles que l’éditeur met progressivement à l’épreuve du feu au travers de certains scénarios Copilot et Copilot 365, Microsoft poursuit sa lancée avec MAI-Image-1, son tout premier générateur d’images développé entièrement en interne.
Un modèle essentiellement photoréaliste
MAI-Image-1 marque une étape stratégique dans l’autonomisation technologique de Microsoft, longtemps dépendant des modèles d’OpenAI. Ce nouveau modèle a été pensé pour répondre aux besoins concrets des créateurs, avec une attention particulière portée à la diversité visuelle, à la photoréalité et à la rapidité d’exécution. L’équipe de Microsoft AI insiste sur le fait que ce modèle a été conçu pour « éviter les rendus répétitifs ou trop stylisés » en misant sur une sélection rigoureuse des données et une évaluation fine des cas d’usage créatifs.
Le modèle excelle notamment dans la gestion de la lumière — reflets, éclairage indirect — et dans la génération de paysages réalistes. Il se distingue par sa capacité à produire des images de qualité tout en restant rapide, permettant aux utilisateurs de passer de l’idée à l’écran en un clin d’œil. Comme le résume Mustafa Suleyman, le CEO de la division Microsoft AI : « MAI-Image-1 trouve un équilibre impressionnant entre vitesse de génération et qualité. Nous sommes impatients de continuer à l’améliorer et à grimper dans le classement ». Ce classement, justement, est celui de LMArena, une plateforme communautaire de benchmark dédiée aux modèles de génération d’images. MAI-Image-1 y fait une entrée remarquée dans le top 10, à la neuvième place. Un score honorable pour un modèle de première génération, surtout face à des géants déjà bien établis.
Microsoft annonce que MAI-Image-1 sera très prochainement disponible dans Copilot et dans Bing Image Creator. Le modèle sera, comme les deux précédents, également disponible sur Azure AI Foundry mais dans un premier temps uniquement en preview privée. Mais tout le monde peut déjà l’essayer via LMArena.
Une compétition musclée
Mais la compétition reste féroce. Même si l’on parle aujourd’hui beaucoup des modèles de génération vidéo avec la sortie de Google VEO3 et plus encore du spectaculaire SORA 2 d’OpenAI, la génération d’images par IA est un marché déjà bien établi qui a largement trouvé sa place dans les chaînes de production de contenus des médias, des publicitaires, des influenceurs de réseaux sociaux et des équipes marketing.
Et ce marché des générateurs d’images fixes est déjà dominé par des acteurs puissants et variés. OpenAI propose gpt-image-1, reconnu pour sa cohérence stylistique et son intégration fluide dans ChatGPT mais également les outils Copilot de Microsoft. OpenAI a récemment lancé une version « gpt-image-1-mini » très rapide et 80% moins onéreuse. Google mise sur Gemini/Imagen, qui brille par sa capacité à interpréter des prompts complexes avec une grande fidélité visuelle. ByteDance, avec son modèle de la famille Dreamina, se distingue par des rendus très expressifs, souvent prisés dans les univers créatifs asiatiques. Stability AI reste un pilier avec Stable Diffusion, apprécié pour sa modularité et son écosystème open source. Midjourney, quant à lui, séduit par son esthétique artistique et sa communauté très active. Enfin, Tencent a réussi à imposer ses modèles internes, souvent orientés vers des usages commerciaux et publicitaires à grande échelle.
Avec MAI-Image-1, Microsoft ne cherche pas seulement à rattraper son retard : il veut redéfinir les standards de l’image générée par IA. Et si la neuvième place n’est qu’un début, elle témoigne déjà d’une ambition claire, celle de bâtir, pas à pas, une alternative crédible et innovante dans un paysage technologique en pleine effervescence.