Avec Gemini Omni, Google ne lance pas seulement une nouvelle génération de modèles IA. Le géant américain transforme également au passage Gemini en atelier créatif multimodal, capable de comprendre une intention, une image, une vidéo, une bande-son ou une instruction textuelle, puis de produire ou modifier une scène vidéo avec une continuité beaucoup plus fine qu’auparavant.
Google présente Omni comme le point de rencontre entre « la capacité de Gemini à raisonner » et « la capacité de créer de Veo ». Le premier modèle de cette nouvelle famille, Gemini Omni Flash, est décrit comme capable de « créer n’importe quoi à partir de n’importe quelle entrée — en commençant par la vidéo ». Bien plus qu’un modèle multimodal capable de génération vidéo, Omni comprend une scène, la manipule et la fait évoluer.
Pas un Gemini 3.5 avec une caméra
Les Gemini 3.5 sont des LLM multimodaux dotés de raisonnement et de capacité de codage, d’agents et d’exécution de workflows. Ils sont pensés pour comprendre, planifier, automatiser, orchestrer. Ce sont d’abord des modèles conçus pour produire du texte.
Gemini Omni, lui, est conçu pour créer, transformer et éditer toutes sortes de médias, même si cette première génération cible en priorité la production de vidéo.
Dit autrement, Gemini 3.x est le moteur de l’agentique, Gemini Omni est un moteur de mise en scène. Là où Gemini 3.5 Flash aide à exécuter des tâches complexes, Omni aide à fabriquer une séquence visuelle cohérente. Il remplace d’ailleurs Veo dans l’application Gemini, signe que Google ne veut plus séparer l’IA conversationnelle et l’IA vidéo.
Omni conserve évidemment l’héritage de Veo : génération vidéo, réalisme, mouvement, audio natif. Mais il y ajoute la logique Gemini : multimodalité, compréhension du contexte, édition conversationnelle et capacité à accumuler les instructions sans repartir de zéro.
L’apport des « World Models »
Techniquement, ce qui différencie Gemini Omni des modèles Gemini précédents, c’est qu’il incorpore certaines technologies explorées par les « World Models ». Des chercheurs comme Yann Le Cun, ne croient pas en l’avenir des purs LLM parce que si ces derniers maîtrisent le langage ils n’ont aucune compréhension du monde qui nous entoure. L’ex chercheur de Meta a récemment créé sa propre startup AMI Labs pour explorer le potentiel des World Models.
Attention, Google ne dit pas qu’Omni est un World Model au sens strict. Mais le modèle en reprend clairement plusieurs concepts qui forment leurs fondations : compréhension spatiale, cohérence temporelle, physique intuitive, mémoire de scène, capacité à anticiper ce qui doit logiquement se produire.
Ce sont ces capacités qui permettent à Gemini Omni de produire des séquences plus crédibles : un reflet doit rester cohérent, un objet doit suivre une trajectoire plausible, un geste doit s’enchaîner correctement, une transformation ne doit pas casser toute la scène. Là où les anciens modèles vidéo savaient générer de belles images animées, Omni cherche davantage à comprendre la scène comme un petit monde à maintenir.
La vidéo devient modifiable par dialogue
C’est là que Gemini Omni dépasse les précédents modèles de génération vidéo. Google explique que chaque instruction peut « s’appuyer sur la précédente ». L’utilisateur peut donc partir d’une vidéo existante, demander une modification, puis une autre, puis encore une autre, tout en conservant les personnages, l’ambiance, la scène et la cohérence générale.
On peut demander de changer l’éclairage, d’ajouter un objet, de transformer un décor, de modifier une action, de synchroniser un mouvement avec de la musique, ou de reprendre un croquis comme guide visuel. Autant d’opérations qui restaient très pénibles avec les anciens modèles vidéo : il fallait souvent régénérer une séquence entière pour corriger un détail. Avec Omni, la vidéo devient une matière aisément éditable.
Un déploiement déjà stratégique
Gemini Omni Flash est déployé dès aujourd’hui dans l’application Gemini et dans Google Flow (l’outil d’édition vidéo par IA) pour les abonnés Google AI Plus, Pro et Ultra.
En intégrant ainsi ce modèle, il devient possible d’utiliser Gemini comme un outil d’édition vidéo sans avoir à jongler avec les modèles.
Google prévoit aussi son arrivée dans YouTube Shorts Remix et YouTube Create, avec un accès gratuit à certaines fonctions. Les API destinées aux développeurs et aux entreprises doivent suivre ultèrieurement.
Côté Français, il va falloir être un peu patient. Google précise que l’accès à son modèle est réservé aux 18 ans et plus, et que les fonctions varient selon le pays et l’offre. Ainsi certaines capacités comme les avatars ou l’édition vidéo-à-vidéo ne sont pas encore accessibles en Europe (et donc en France).
Avec Omni, Google ne lance donc pas seulement un nouveau modèle vidéo. L’éditeur prépare une bascule : celle d’une vidéo IA que l’on ne se contente plus de générer, mais que l’on dirige, corrige et réinvente par la conversation.
____________________________


puis