C’est avec les « Agents IA » et les petits modèles personnalisables, l’autre grosse tendance de l’année en matière d’IA : les modèles capables de générer des vidéos avec un réalisme bluffant. Meta annonce entrer dans la course avec un modèle Movie Gen qui ne se contente pas de créer mais peut aussi éditer des vidéos. Attention, vous allez en prendre plein les mirettes…

Meta vient d’annoncer le lancement de Movie Gen, un modèle IA génératif de pointe qui promet de profondément transformer la création de contenu multimédia. Comme le célébrissime Sora d’OpenAI, ce nouvel outil IA permet de générer des vidéos haute définition à partir de simples descriptions textuelles. Mais il permet aussi d’éditer des vidéos existantes et même de personnaliser du contenu en intégrant l’image de l’utilisateur ou de générer l’audio qui accompagne les images.

Mais comme Sora, cet outil révolutionnaire n’est pas encore en libre accès et réservé à quelques créatifs triés sur le volet.

Voyons d’un peu plus près et en images ce que nous promet Movie Gen. Le modèle se distingue par quatre capacités principales :

1 – La Génération de vidéos

Créez ce que votre imagination vous inspire… À partir d’une simple phrase descriptive (un prompt donc), le modèle peut produire des vidéos de haute qualité d’une durée de 16 secondes max, avec une fluidité de 16 images par seconde. Il comprend les mouvements d’objets, les interactions sujet-objet et les mouvements de caméra. Et les résultats proposés par Meta parlent d’eux-mêmes :

Voici un exemple plus concret, directement produit par le modèle et sans montage vidéo.
Il a été généré avec le prompt suivant :

Un paresseux portant des lunettes de soleil roses est allongé sur une bouée en forme de donut dans une piscine. Le paresseux tient un cocktail tropical. L’ambiance est tropicale. La lumière du soleil projette une ombre.

2 – La personnalisation de vidéos

Mettez-vous en scène, vous-même… En utilisant une image de référence (votre photo de profil par exemple), Movie Gen peut créer des vidéos personnalisées qui conservent l’identité et les mouvements de la personne, tout en incorporant des éléments décrits dans le texte.

Voici un exemple obtenu à l’aide du prompt suivant :

Une femme DJ mixe des disques sur un toit à Los Angeles. Elle porte une veste rose et d’énormes écouteurs. Il y a un guépard à côté de la femme. L’arrière-plan est un paysage urbain. Utilise la photo jointe pour le visage de la femme. 

3 – Édition précise de vidéos

Encore plus spectaculaire : prenez une vidéo existante et réinventez-la en quelques mots ! Le modèle peut en effet modifier des vidéos existantes en se basant sur des instructions textuelles, en ajoutant, supprimant ou remplaçant des éléments spécifiques, tout en préservant le reste du contenu intact. C’est très impressionnant d’autant que la plupart des modèles IA pour générer des images fixes ont généralement le plus grand mal à comprendre vos instructions de retouche !

Voici un exemple parlant généré à l’aide des prompts placés en sous-titres des vidéos.

4 – Génération audio

Et parce que les films ne sont rien sans leur bande-son, Movie Gen peut également produire des bandes sonores synchronisées avec la vidéo, incluant des sons d’ambiance, des effets sonores et de la musique instrumentale !

Démonstration avec cet exemple généré à l’aide du prompt ci-dessous : 

Un serpent serpente sur le sol dans la forêt glissant entre les feuilles. Pour l’audio, un bruissement de feuilles et craquement de brindilles, accompagnés d’une piste musicale orchestrale.

Un nouveau pas franchi ?

Lors de tests comparatifs avec d’autres modèles du marché, tels que Sora d’OpenAI, Runway Gen3 et Lumalabs, Movie Gen a obtenu des résultats supérieurs en termes de réalisme et de fidélité au texte. Des évaluations réalisées par des humains – avec toute la subjectivité que cela implique – mais qui tendent à confirmer qu’un nouveau pas a encore été franchi en termes de réalisme, de fluidité des mouvements et de compréhension des instructions.

Tout ceci est, comme pour Sora, aussi exaltant qu’inquiétant. Déjà que l’on est envahi de deepfakes avec les IA génératrices d’images, de tels outils ne vont évidemment qu’intensifier les risques. Sans compter l’impact dans l’univers des graphistes, des animateurs et des vidéastes, notamment en entreprises. Meta a beau insister sur le fait que Movie Gen n’a pas vocation à remplacer les artistes ou les animateurs, mais à leur fournir de nouveaux moyens d’expression, personne n’est dupe sur les risques.

Bien que Movie Gen représente une avancée significative, Meta reconnaît que des améliorations sont encore nécessaires avant de laisser le modèle entre les mains de tout le monde. L’entreprise travaille notamment à réduire le temps de traitement et à perfectionner la qualité des vidéos, en s’attaquant aux problèmes liés aux artefacts visuels et à la synchronisation audio lors de mouvements complexes.

Pour l’instant, Movie Gen reste un modèle expérimental que l’entreprise ne veut confier qu’à des cinéastes et des créateurs triés sur le volet. Meta veut encore affiner Movie Gen pour répondre aux besoins réels des utilisateurs et garantir que l’outil amplifie la créativité intrinsèque de chacun, sans poser de nouveaux risques de cybersécurité, de désinformation, de manipulation, et autres usages indésirables. Mais avec Movie Gen, Meta montre une nouvelle fois qu’il faut compter sur ses ingénieurs IA et leur savoir-faire pour innover, tenir tête à OpenAI et défricher un futur où la frontière entre imagination et réalisation devient de plus en plus ténue.

 

À lire également :

OpenAI éblouit la sphère Internet avec sa nouvelle IA vidéo : Sora

Google annonce VEO, un modèle concurrent du SORA d’OpenAI

Adobe réinvente la création vidéo par l’IA dans Premiere Pro

Voice Engine d’OpenAI imite votre voix en 15 secondes…