Avec Magma, Microsoft propose un modèle fondation inédit combinant intelligence verbale, spatiale et temporelle. Cette convergence permet une prise de décision en temps réel et une adaptation fluide aux tâches agentiques et robotiques, sans nécessiter d’entraînement spécifique pour chaque domaine.
Microsoft vient de lever le voile sur Magma, un modèle IA d’un genre un peu nouveau. Ce modèle fondation ne se contente pas de comprendre le langage et les images : il est capable d’interpréter des données visuelles, de raisonner sur l’espace et le temps, et surtout, de planifier et exécuter des actions dans des environnements tant numériques que physiques.
Une fusion de compétences inédites
Magma se distingue par sa capacité à combiner trois types d’intelligence complémentaires :
- L’intelligence verbale : Il traite et génère du texte à partir de données variées.
- L’intelligence spatiale : Grâce à une compréhension fine des éléments visuels, le modèle repère et localise les objets utiles, que ce soit un bouton cliquable sur une interface ou une pièce mobile dans une scène robotique.
- L’intelligence temporelle : En anticipant l’évolution des actions sur plusieurs étapes, Magma parvient à orchestrer des séquences complexes, allant de la navigation dans une interface utilisateur à la manipulation d’objets par un robot.
Des innovations techniques au service de l’action
Au cœur de cette prouesse se trouvent deux techniques clés :
- Set-of-Mark (SoM) : Ce procédé permet de repérer et d’étiqueter les objets actionnables dans une image. Qu’il s’agisse d’un élément d’interface ou d’un bras robotisé, Magma identifie précisément les cibles pour guider ses actions.
- Trace-of-Mark (ToM) : Cette méthode, appliquée principalement aux vidéos et aux données robotiques, aide le modèle à saisir la dynamique temporelle. En anticipant les mouvements futurs, Magma planifie ses actions de manière efficace, en utilisant moins de ressources que les approches classiques.
L’entraînement du modèle s’appuie sur un vaste ensemble de données hétérogènes – allant des vidéos didactiques à la manipulation robotique en passant par la navigation d’interfaces – permettant ainsi d’exploiter ce modèle IA sur des scénarios très divers notamment en matière d’animation d’agents IA et de robots.
Applications concrètes
En phase de tests, Magma a démontré ses capacités en conditions réelles :
- Navigation d’interfaces : Le modèle est capable de comprendre des commandes vocales ou textuelles, de localiser les éléments pertinents à l’écran et d’interagir avec eux pour réaliser des tâches précises, comme vérifier la météo ou activer le mode avion. En ce sens, il peut servir de fondation à des agents IA comme ceux déjà proposés par OpenAI (Operator) et Anthropic (Claude Computer Use).
- Manipulation robotique : Des expérimentations sur des plateformes telles que WidowX et LIBERO ont révélé une supériorité notable de Magma par rapport aux modèles précédemment spécialisés. Qu’il s’agisse de saisir, déplacer ou positionner des objets, Magma excelle aussi bien dans des scénarios courants que dans des situations inédites.
- Raisonnement spatial et compréhension multimodale : Face à des questions complexes demandant une interprétation conjointe d’éléments visuels et textuels, Magma parvient à proposer des réponses convaincantes, rivalisant avec certains systèmes de pointe malgré une moindre quantité de données d’entraînement.
Sur le plan des benchmarks, le modèle a obtenu un score de 80,0 sur le test VQAv2 – dépassant ainsi celui de GPT-4V – et a enregistré un impressionnant score POPE de 87,4 dans le domaine de la manipulation robotique.
Vers une nouvelle ère de l’IA agentique
Magma se positionne comme le premier modèle capable d’aborder l’ensemble du spectre des tâches agentiques en mode zéro-shot, c’est-à-dire sans ajustements spécifiques pour chaque domaine. Cette polyvalence, conjuguée à une capacité à planifier et exécuter des actions en temps réel, ouvre la voie à des applications inédites dans les secteurs de l’interface utilisateur et de la robotique.
Cependant, malgré ses performances remarquables, Magma rencontre encore des défis dans la prise de décision à long terme. Microsoft n’en reste pas moins confiant et va publier le code sur GitHub afin d’encourager la recherche collaborative et l’amélioration continue de cette technologie.