On s’attendait à une grande semaine d’annonces OpenAI… Mais finalement, c’est Google qui vole la vedette en multipliant les annonces. Après Agentspace, Gemini 2.0 Flash, NotebookLM Plus, Google a lancé hier, aux USA uniquement pour l’instant, la version 2 de son générateur de vidéos VEO et surtout un nouvel outil de retouche et mixage d’images par l’IA, Whisk !
Google a décidé de voler la vedette à OpenAI qui comptait monopoliser l’attention avec ses annonces de Sora, OpenAI o1, ChatGPT Projects, Canevas, etc. Mais finalement, les annonces d’OpenAI ne sont ni originales ni surprenantes. Et c’est Google qui attire tous les regards en démontrant à quel point la firme se réinvente et réinvente ses outils par une prolifération de nouvelles solutions, nouvelles idées et nouvelles IA.
Whisk : retouche et mixage d’images par l’IA
Ainsi, Google a dévoilé hier un outil très intéressant pour tous ceux qui sont peu doués en graphisme mais rêvent de créer et retoucher des images très simplement en demandant en langage naturel à une IA de faire le boulot. Whisk transforme l’approche traditionnelle de la création d’images. Cette nouvelle plateforme, développée au sein de Google Labs, redéfinit le paradigme habituel des prompts textuels en privilégiant une interface visuelle intuitive afin de rendre l’outil accessible au plus grand nombre.
L’architecture technique de Whisk repose sur une synergie sophistiquée entre deux modèles d’IA de pointe : Gemini, qui analyse et génère automatiquement des descriptions détaillées des images sources, et Imagen 3, le dernier-né des modèles de génération d’images de Google. Cette architecture en pipeline permet à l’IA non seulement de comprendre le contenu des éléments visuels fournis par l’utilisateur mais également de les adapter et de les retravailler sans les trahir.
Le workflow de Whisk s’articule autour de trois composantes visuelles distinctes : une image pour le sujet principal, une pour la scène, et une dernière pour le style artistique. Cette approche modulaire offre à la fois une étonnante flexibilité et une grande simplicité dans la création, permettant de générer aussi bien des illustrations fantaisistes que des designs d’objets dérivés comme des pins émaillés ou des autocollants.
Les premiers retours d’expérience des créatifs et artistes positionnent Whisk non pas comme un simple éditeur d’images, mais comme un outil d’exploration créative rapide. La plateforme privilégie l’itération et l’expérimentation plutôt que la précision pixel par pixel, permettant aux utilisateurs d’explorer rapidement de multiples variations conceptuelles.
Un aspect technique notable est la capacité de Whisk à extraire l’essence des images sources plutôt que de les répliquer exactement. Cette approche peut parfois générer des variations inattendues dans les caractéristiques physiques des sujets, mais l’interface permet aux utilisateurs d’ajuster les prompts sous-jacents pour un contrôle plus précis du résultat final.
VEO2 produit des séquences vidéos en 4K
La semaine dernière, OpenAI a enfin officialisé la disponibilité « contrôlée » de sa fantastique IA génératrice de vidéos, malheureusement non accessible aux européens pour l’instant.
Google n’aura pas tardé à répondre à la jeune pousse avec la version 2 de sa propre IA de génération de vidéos : VEO.
Et VEO2 frappe fort avec une nouveauté qui fait la différence : la capacité à générer des vidéos en 4K !
VEO 2 repousse les frontières techniques de VEO1 et de ses concurrents. Outre la résolution 4K, le nouveau modèle IA démontre une compréhension approfondie de la physique du monde réel et des subtilités du mouvement humain. Sa maîtrise du langage cinématographique permet un contrôle précis des paramètres visuels, du choix d’objectifs aux effets spéciaux. Un progrès notable réside dans la réduction significative des « hallucinations », ces artefacts indésirables typiques de la génération vidéo par IA.
Google adopte une approche progressive et mesurée du déploiement via VideoFX, YouTube et Vertex AI. Chaque contenu généré intègre le watermark invisible SynthID, garantissant une traçabilité responsable. Les évaluations humaines placent VEO 2 en position de leader face aux modèles concurrents, notamment Sora d’OpenAI.
Les premières vidéos réalisées par des testeurs triés sur le volet démontrent la polyvalence de VEO 2, particulièrement adaptée à la création de contenus YouTube Shorts et à la production de séquences cinématographiques élaborées.
Comme bien trop souvent, Whisk et VEO2 ne sont pour l’instant accessibles qu’aux utilisateurs basés aux États-Unis via le fameux « labs.google ». Sortez votre VPN !