Microsoft accélère sa mue en laboratoire d’IA maison avec deux modèles inédits, prêts à rivaliser avec les ténors du secteur tout en alimentant Copilot. Avec MAI-Voice-1 et MAI-1-preview, l’éditeur démontre son savoir-faire en matière de modèles vocaux et textuels optimisés pour ses infrastructures et ses usages grand public.

Longtemps tributaire et bénéficiaire des modèles d’OpenAI et de leur avance technologique, Microsoft s’en éloigne chaque jour un peu plus, créant ses propres modèles et adoptant ceux de la concurrence (notamment Anthropic), pendant qu’OpenAI n’hésite plus à marcher sur les platebandes de Microsoft en lançant moteur de recherche et en travaillant selon les rumeurs sur son propre navigateur Web et sa propre suite bureautique.

De quoi aussi nous rappeler une évidence : Microsoft a les moyens de développer ses propres modèles IA et venir directement concurrencer Google Gemini ou GPT-5 d’OpenAI. Jusqu’ici, l’éditeur avait surtout communiquer sur ses modèles open-source « Phi ». Mais il vient d’officialiser deux modèles « MAI » en développement depuis de nombreuses années et que nous avions déjà évoqués en mai dernier.

MAI-Voice-1, dédié à la génération vocale, et MAI-1-preview, un modèle de langage « fondation » destiné aux usages texte sont deux nouveaux modèles intégralement développés en interne chez Microsoft, de la sélection des jeux de données à l’optimisation des inférences en passant par l’apprentissage et les garde-fous.

L’annonce est éminemment symbolique par ce qu’elle marque une étape clé vers une plus grande autonomie technologique de l’éditeur tout en restant compatible avec son actuelle stratégie multi-modèles où OpenAI conserve sa place prioritaire dans Copilot.

MAI-Voice-1 se distingue par des performances de synthèse vocales qui n’ont pas à rougir face à la concurrence : Microsoft affirme qu’il peut produire 60 secondes d’audio en moins d’une seconde avec un seul GPU. Le modèle alimente déjà Copilot Daily et les fonctionnalités Podcasts, et il est accessible dans Copilot Labs (via un outil dénommé Expressions Audio Copilot) pour tester styles de voix, narration et scénarios multi-interlocuteurs. On le sait, Microsoft veut faire de la voix « l’interface du futur » des compagnons IA et de Windows ce qui lui impose de réduire coûts et latences à l’échelle grand public. Pas étonnant, dès lors, que l’éditeur ai fait de MAI-Voice-1 une priorité.

MAI-1-preview, de son côté, est un modèle mixture-of-experts « pré- » et « post- » entraîné sur environ 15 000 GPU NVIDIA H100. Microsoft le positionne d’abord pour des cas d’usage grand public, un choix assumé par Mustafa Suleyman, le CEO de la division Microsoft AI, avec, pour commencer, un déploiement progressif dans certains usages textuels de Copilot et une évaluation publique sur la célèbre plateforme LMArena. Des accès API sont ouverts à des testeurs de confiance.

Microsoft reste pour l’instant très discret sur les spécificités techniques de ses modèles. Typiquement, aucun benchmark de comparaison n’a été publié et on ignore tout des fenêtres contextuelles du modèle. Sur LMArena, le modèle affiche des scores proches de GPT-4.1, Gemini 2.5-Flash, Mistral Medium ou Claude Opus 4. On peut néanmoins supposer que l’inférence de ces modèles ont été spécialement optimisés pour les propres accélérateurs IA de Microsoft, les puces « MAIA-100 ».

Difficile de ne pas voir dans cette annonce un jalon vers plus d’indépendance vis-à-vis d’OpenAI, sans rupture immédiate du partenariat et alors que les deux entreprises sont en négociation pour l’avenir et les parts de Microsoft dans la future entité à but lucratif d’OpenaI. Mais la démarche illustre surtout la stratégie de Microsoft en matière d’IA avec des trajectoires produits moins corrélées aux roadmaps d’OpenAI, afin de disposer de plus de marge de manœuvre contractuelle et technique. On l’a déjà vu avec le lancement de GitHub Spark animé par des modèles d’Anthropic et non d’OpenAI. À court terme, rien ne change pour les déploiements existants ; à moyen terme, Copilot pourrait s’appuyer de plus en plus sur des briques MAI pour des tâches ciblées.

Et Microsoft de prévenir qu’il ne s’agit là que de premiers pas. « Nous sommes un laboratoire agile et réactif, rassemblant certaines des plus grands talents au monde. Notre feuille de route MAI est passionnante en appui sur notre cluster de nouvelle génération GB200, déjà opérationnel. Nous portons une mission ambitieuse à laquelle nous croyons profondément » écrit Mustafa Suleyman dans un billet blog. A suivre donc…

À lire également :