La conférence « développeurs » de Google se tient cette semaine à Mountain View. L’occasion pour Google de démontrer les progrès parfois assez saisissants de ces nouveaux modèles. L’IA est désormais fondamentalement multimodale et se montre terriblement agile et créative qu’il s’agisse de produire des textes, des images, des vidéos ou des musiques.
L’univers de la création de contenus et d’œuvres multimédias est totalement chamboulé par l’arrivée de l’IA générative. Les modèles comme OpenAI Sora, OpenAI GPT4o image, Adobe Firefly, Midjourney, Runway, Suno AI ou Udio, n’ont pas seulement créé le buzz et éberlué les réseaux sociaux, ils ont aussi commencé à totalement remodeler les processus et l’écosystème de la création de contenus en entreprise.
Avec ses modèles Imagen et VEO parfaitement intégrés à Vertex AI et aux pipelines d’insertion de l’IA dans les processus, Google a aussi beaucoup contribué à cette transition. Et l’éditeur a frappé fort à l’occasion de Google I/O 2025 avec de nouvelles générations de modèles très significativement améliorés et aux rendus toujours plus bluffants.
VEO 3 : L’IA dit adieu au cinéma muet
Révolution, le nouveau modèle VEO 3 joint le son à l’image. Jusqu’ici, tous les modèles de génération de vidéos ne produisaient que des séquences muettes. Avec VEO 3, l’IA générative passe au cinéma sonore. Le modèle combine, pour la première fois, synthèse d’images animées et génération audio native : effets sonores, ambiances, dialogues et synchronisation labiale sortent d’un seul pipeline. Le moteur IA analyse les pixels qu’il vient de créer pour caler automatiquement chaque bruitage et chaque intonation sur l’action.
Au-delà du l’arrivée du son, la qualité d’image progresse également : DeepMind met en avant une fidélité accrue à la physique et aux éclairages réels, une meilleure cohérence temporelle et, en démonstration interne, un rendu 4K qui dépasse les performances de Veo 2. Pour l’heure, la version « preview » disponible sur Vertex AI plafonne néanmoins à 720p/24 i/s, sur des segments de huit secondes au format 16 : 9.
Côté interface, le modèle accepte indifféremment un prompt textuel ou une image de référence, et sait réécrire les instructions pour optimiser le résultat, une fonction de « prompt rewriting » inaugurée dans cette version. Les améliorations de suivi d’instructions se traduisent par une bien plus grande exactitude du rendu généré vis-à-vis du scénario décrit. En outre, Gemini Veo 3 hérite et étend le module de « contrôle de la caméra » que Google annonce avoir également implémenté dans la dernière itération de Veo 2. Car Veo 2 continue sa carrière, Veo 3 restant pour l’instant restreint à un public riche et trié sur le volet. Reste que cette brique de contrôle de la caméra offre pour la première fois un réglage explicite des mouvements de caméra dans un générateur vidéo IA : Zoom in, Rotate Up, Move Right, Move back, etc. Dans un même ordre d’idées, Veo 2 et Veo 3 comprennent désormais les instructions qui leur demandent d’ajouter ou retirer des éléments bien précis dans une scène.
Imagen 4 : de la concurrence sérieuse pour OpenAI
Imagen 4 marque une avancée notable dans la génération d’images chez Google. Le modèle va bien au-delà de l’amélioration de la résolution : il introduit des contrôles et des garanties qui répondent aux attentes des équipes IT.
Imagen 4 excelle ainsi dans le rendu des micro-textures (tissus, gouttes d’eau, pelages) avec une précision jusque-là réservée aux rendus 3D. Il gère aussi bien les styles photoréalistes qu’abstraits, sur des ratios d’aspect variés, et jusqu’à une résolution 2K adaptée à l’impression ou à la projection HD.
Autre amélioration important l’affichage de textes dans l’image et la typographie progressent nettement : les lettres sont correctement orthographiées et alignées, au point que l’utilisation de ce modèle pour la création de slides ou de supports professionnels sans retouche devient non seulement possible mais crédible.
Sur nos tests, Imagen 4 s’est révélé un redoutable concurrent pour GPT-4o-image d’OpenAI même si les rendus sont très différents. D’autant qu’Imagen 4 s’est révélé significativement plus rapide. Et en la matière, ce n’est qu’un début. Google annonce une évolution “fast” qui devrait offrir une génération d’images dix fois plus rapide qu’Imagen 3, sans perte de qualité.
Imagen 4 est déjà intégré à Gemini, à Whisk (avec animation via Veo 2), à Vertex AI et dans Workspace (Slides, Vids, Docs). Chaque image porte un marquage SynthID, et le portail associé permet de vérifier ce tatouage avant diffusion, garantissant la traçabilité.
Les progrès très concrets réalisés par Imagen 4 en font un redoutable outil d’automatisation des chaînes graphiques et de production de contenus pour les réseaux sociaux et sites de e-commerce. Attention toutefois, un rendu 2K pèse 6 à 8 Mo, avec un quota de 60 images par minute et par projet sur Vertex AI : il faudra donc prévoir le stockage, le budget et le réseau en conséquence. Mais la réduction des retouches et l’automatisation de la typographie apportent un vrai gain de productivité, sous réserve d’intégrer les contrôles SynthID et orthographiques dans la chaîne d’approbation.
Lyria Real Time : l’IA ne remplace pas que les musiciens, les DJ aussi
En novembre 2023, Google dévoilait le modèle de génération musicale avancé, Lyria de Deepmind, capable de produire de la musique de haute qualité, incluant des instrumentaux et des voix, avec un niveau de fidélité professionnelle. Depuis, des services comme Suno AI et Udio ont contribué à populariser les modèles génératifs audios. L’an dernier, Google avait présenté sa plateforme Music AI Sandbox (toujours en bêta privée) animée par Lyria 2 qui non seulement permettait une génération en haute fidélité (48 KHz stéréo) mais permettait surtout de fusionner des séquences musicales, de contrôler précisément la tonalité, le tempo et la structure des morceaux mais également d’ajouter des voix chantées en fournissant simplement les paroles.
À Google I/O 2025, DeepMind est allé encore plus loin avec « Lyria RealTime » une déclinaison temps réel (ou presque) de Lyria 2. Lyria Real Time permet une création musicale instantanée pensée pour l’intégration directe dans les applications et les services multimédias mais qui finalement permet de se comporter comme un DJ. Le modèle se distingue par sa capacité à générer de la musique synchronisée à la seconde, en réponse aux actions de l’utilisateur ou aux besoins d’une vidéo, d’un jeu ou d’un agent conversationnel. Il peut composer en temps réel, ajuster la dynamique ou le tempo à la volée, et réagir aux changements de contexte pour produire des transitions naturelles, sans latence audible. Le modèle gère différents styles et instruments, et intègre des effets sonores ou ambiances en continu. La restitution reste fidèle, avec une gestion fine de la stéréo et des variations d’intensité, adaptée aussi bien à la création de jingles que de fonds sonores immersifs ou d’accompagnements musicaux évolutifs.
Lyria Real Time est disponible en API, directement intégrable dans les pipelines de production multimédia, les applications web, mobiles ou les environnements cloud (comme Vertex AI), mais également au sein d’une nouvelle application (non accessible pour l’instant hors des USA) dénommée Music FX DJ.