FAIR, le laboratoire d’IA de Meta, annonce une avancée vers des IA plus conscientes du monde réel avec la publication en open source de son nouveau modèle V-JEPA.

Si OpenAI avance progressivement de son côté avec sa vision des « AGI » (Artificial General Intelligence), le laboratoire d’IA « FAIR » de Meta en fait autant avec sa propre vision de l’IA de demain désignée sous l’acronyme « AMI » (Advance Machine Intelligence).

Pour le patron du FAIR, Yann LeCun, pour gagner en intelligence « humaine », les IA doivent absolument progresser dans leur perception et leur compréhension du monde réel, ce monde physique et analogique dans lequel nous évoluons en permanence.

Le nouveau modèle annoncé cette semaine par le laboratoire de Meta marque une avancée importante dans la réalisation de cette vision. Dénommé V-JEPA, acronyme de Video Joint Embedding Predictive Architecture, ce modèle excelle dans la détection et la compréhension des interactions détaillées entre objets et donc dans la compréhension du monde physique. La particularité de ce modèle d’apprentissage auto-supervisé non génératif est de pouvoir prédire les parties manquantes ou masquées d’une vidéo dans un espace de représentation abstrait. Ce modèle se révèle ainsi plus efficace et plus rapide que les approches précédentes (qui cherchaient à remplir chaque pixel manquant) parce qu’il se concentre sur l’information conceptuelle de haut niveau sans se soucier des détails imprévisibles ou peu importants. Il peut être adapté à différentes tâches comme la classification d’actions, la reconnaissance d’interactions fines entre les objets et la localisation d’activités. V-JEPA est pré-entraîné entièrement avec des données non étiquetées. Les étiquettes ne sont utilisées que pour adapter le modèle à une tâche particulière après le pré-entraînement.

« V-JEPA est une étape vers une compréhension plus approfondie du monde afin que les machines puissent parvenir à un raisonnement et à une planification plus généralisés », explique ainsi Yann LeCun, père des « Architectures prédictives à intégration conjointe (JEPA) ». « Notre objectif est de construire une intelligence artificielle avancée capable d’apprendre davantage comme le font les humains, en formant des modèles internes du monde qui les entoure afin d’apprendre, de s’adapter et d’élaborer des plans de manière efficace au service de l’accomplissement de tâches complexes ».

V-JEPA « comprend » le contenu des flux vidéos et en élabore un certain contexte sur le monde qui nous entoure. Il sert ainsi de premier modèle du monde physique capable de « voir » conceptuellement ce qui se passe même s’il n’a pas une vision complète de tout. Si le travail sur V-JEPA a principalement porté sur la perception « visuelle » du monde, FAIR compte étendre l’approche JEPA sur une dimension multimodale et montrer qu’un tel système prédictif permet à la machine d’obtenir un modèle du monde suffisamment détaillé pour permettre de la planification ou de la prise de décision séquentielle.

 

À lire également :

Des puces IA « maison » chez Meta

OpenAI éblouit la sphère Internet avec sa nouvelle IA vidéo : Sora

Meta rebondit en Bourse après un bon 4ème trimestre (Q4) 2023

Nouvelles IA génératives : Meta Purple LLama, Google AlphaCode 2, Amazon Titan AI Image

Rumeur : OpenAI développerait un moteur de recherche Web basé sur ses IA