Google annonce Gemini 2.0 Flash, première concrétisation de la future famille 2.0, une famille de modèles que Google affirme avoir créés pour l’ère des agents IA. Et pour le démontrer, la firme américaine dévoile des projets expérimentaux qui deviendront des fonctionnalités IA de Gemini en 2025…

Alors qu’OpenAI dévoile au compte-goutte ses nouveautés pour ChatGPT et son écosystème d’IA, Google contre-attaque médiatiquement en annonçant sa génération de modèles « Gemini 2.0 » en ne dévoilant cependant que le petit Gemini 2.0 Flash alors qu’il semble de plus en plus évident que les acteurs de l’IA rencontrent d’immenses difficultés à produire une nouvelle génération de très grands modèles frontières.

Selon Google, sa nouvelle génération de modèle IA « Gemini 2.0 » marque une évolution significative vers ce que l’entreprise appelle « l’ère agentique ». En ne dévoilant que la version Flash, il est assez difficile de se rendre réellement compte des apports de cette génération « 2.0 ». Mais ce lancement confirme que les petits modèles sont désormais capables de très grandes choses.

Les innovations clés de Gemini 2.0 Flash

S’il est un point fondamental qui différencie « Gemini 2.0 Flash » des éditions Flash précédentes, c’est sans aucun doute l’arrivée de capacités multimodales étendues. Une preuve de plus que les progrès réalisés par les petits modèles, issus d’une technique de réduction de grands modèles appelée « dillution », leur permettent désormais d’en faire presque autant que les gros modèles bien plus énergivores et coûteux. Plus le temps passe, moins il devient cohérent et pertinent de dépenser bien plus (en argent pour les clients mais aussi, pour les hyperscalers, en infrastructure d’inférences et d’apprentissage) pour les grands modèles. C’est tout le problème des GPT-5, Claude 1.5 Opus et Gemini 1.5 Ultra que l’on n’a toujours pas vus et que l’on ne verra peut-être même jamais!

Le modèle peut désormais générer nativement des images mélangées au texte, produire du texte et synthétiser de la parole dans plusieurs langues avec une synthèse vocale personnalisable, analyser en quasi temps réel des images et même des vidéos, le tout avec une performance doublée par rapport à son prédécesseur. Cette amélioration notable s’accompagne d’une intégration native avec les services Google, permettant notamment l’exécution de code et l’accès direct à Google Search.

Conscient des enjeux de sécurité, Google adopte une approche progressive dans le déploiement de ces technologies. La version expérimentale de Gemini 2.0 Flash est immédiatement disponible via l’API Google dans AI Studio et Vertex AI, tandis que certaines fonctionnalités avancées, comme la génération d’images et la synthèse vocale, sont réservées aux partenaires early-access. Le déploiement complet est prévu pour janvier 2025.

Des interactions en temps réel

Parallèlement ailleurs, Google lance une nouvelle « Multimodal Live API » facilitant la création d’applications avec streaming audio et vidéo en temps réel pour créer des applications capables d’analyser et de répondre instantanément aux entrées multimodales ! Et donc disposer d’applications avec le même genre d’interactivité homme-machine « next gen » avec le naturel et la fluidité d’un Gemini Live ou d’un ChatGPT Advanced Voice Mode.

Gemini 2.0 Flash « preview » fait également son apparition dans le chatbot Gemini via l’app Gemini sur Desktop et Web. Son intégration sur les mobiles est annoncée pour très bientôt.

DEEP RESEARCH, la réponse à GPT SEARCH ?

Mieux encore, les abonnés à la version payante du chatbot, Gemini Advanced, vont avoir accès à une toute nouvelle fonctionnalité « Deep Research » qui est la réponse de Google à la fonction « GPT Search » d’OpenAI dans ChatGPT Plus !

Deep Research se distingue par sa capacité à élaborer des plans de recherche multi-étapes sophistiqués. Le processus s’articule autour d’une approche itérative :

  1. L’utilisateur formule une question ou définit un sujet de recherche
  2. Le système élabore un plan de recherche structuré, soumis à validation
  3. L’analyse s’effectue par itérations successives, chaque découverte alimentant de nouvelles pistes d’exploration
  4. Les résultats sont synthétisés dans un rapport détaillé, enrichi de références sourcées

L’approche méthodologique de Deep Research se distingue par sa capacité à affiner progressivement ses recherches. Le système analyse les informations découvertes, lance de nouvelles requêtes basées sur ses découvertes, et répète ce processus jusqu’à obtenir une compréhension approfondie du sujet. Le résultat final se matérialise sous forme d’un rapport structuré, directement exportable vers Google Docs pour faciliter l’édition ultérieure.

Dit autrement « Deep Research » est un peu une adaptation du mode Deep Search de Microsoft Copilot ou encore une combinaison de « GPT Search » et du mode de raisonnement avancé d’OpenAI o1.

Selon Google, la puissance de Deep Research repose sur deux avancées majeures de Gemini 2.0 (que l’on retrouvera sur les futurs modèles » : la fonction « Advanced reasoning » qui procure au modèle des capacités d’analyse contextuelle approfondie et la fonction « Long context capabilities » permettant un traitement de volumes importants d’information.

Pour Google, « Deep Research permet d’économiser des heures de travail » en automatisant les processus de recherche complexes.

La fonctionnalité n’est disponible qu’aux USA et il y a fort à parier que les Européens devront attendre quelques mois avant d’en profiter.

De nouveaux projets expérimentaux

Au-delà de ces annonces, Google veut imposer dans l’inconscient collectif que « Gemini 2.0 » inaugure en réalité une nouvelle ère de l’IA, celle des Agents IA, celle de l’IA agentique. Et pour le démontrer, la firme a levé le voile sur trois projets majeurs illustrant sa vision de l’IA agentique :

Project Astra : Un assistant IA universel capable d’intégrer des informations du monde réel et de prendre des initiatives contextuelles (suggestions de restaurants, planification d’itinéraires).

Project Mariner : Une interface capable d’interpréter le contenu des navigateurs web en temps réel, analysant texte, code et images pour proposer des actions pertinentes.

Jules : Un agent dédié aux développeurs qui s’intègre aux workflows GitHub pour automatiser la gestion et le débogage du code (Python et JavaScript).

Bref, Google a bien l’intention de démarrer l’année 2025 en prenant les devants sur la concurrence. Alors qu’OpenAI devrait évoquer cette semaine quelques nouveautés autour des « Agents » et de ses modèles, Google prend de l’avance en dévoilant des projets encore loin d’être fonctionnalité accessibilité et en dévoilant son « Gamini 2.0 Flash ». De quoi largement attirer les regards et mettre l’écosystème de l’IA en attente de plus d’infos sur les modèles plus évolués !

À lire également :

OpenAI lance officiellement son modèle vidéo SORA mais pas en Europe…

OpenAI lance son IA « o1 Pro » à 200 $/mois

Google Gemini for Workspaces est enfin disponible en français !

Google officialise Gemini Live en français

Google donne de la personnalisation à Gemini et lance de nouveaux modèles