Google a enfin officialisé son nouveau modèle multimodal Gemini qui doit rapidement remplacer son modèle fondation PaLM 2 qui anime actuellement Bard et Duet AI. Un lancement pour l’instant beaucoup plus marketing que concret. Mais un lancement très prometteur quant au potentiel qu’atteindront les IA en 2024.
Alors qu’OpenAI célèbre « 1 an de ChatGPT », Google tente une nouvelle fois d’éloigner les regards de la startup qui défraie l’actualité depuis le début de l’année en annonçant officiellement son nouveau modèle fondation « Gemini », ou plutôt ses nouveaux modèles « Gemini » puisque Google décline sa technologie en plusieurs modèles aux aptitudes différentes.
Disons-le immédiatement, cette annonce est d’abord marketing avec plein de vidéos super impressionnantes mais réalisées avec un modèle qui ne connaît pour l’instant que l’anglais et dont la version la plus différenciante ne sera pas disponible avant plusieurs semaines.
Ainsi, si l’on en croit la communication du groupe américain, Gemini « marque le début d’une nouvelle ère », « dépasse de loin celles des modèles existants », « repousse les limites de l’état de l’art dans presque tous les domaines ». Evidemment, ça ne mange pas de pain de s’enthousiasmer quand, de toutes façons, rien n’est vraiment pour l’instant vérifiable, même s’il semble logique que Gemini soit bien meilleur qu’un PaLM 2 divulgué dans la hâte et qu’un GPT-4 lancé en mars 2023 !
Multimodal de naissance
Une fois toute la couche marketing retirée, l’annonce démontre néanmoins les progrès réalisés par Google dans les modèles fondation depuis un an mais également les nouveaux potentiels et les nouveaux cas d’usage rendus possibles. De quoi donner déjà un aperçu de ce dont on peut s’attendre de nos assistants IA en 2024.
Sur le papier Gemini est un modèle nativement et profondément multimodal. Dit autrement, il manipule et comprend les textes (comme les modèles LLMs actuels) et les images (comme GPT-4 vision) mais aussi l’audio et la vidéo ! D’ailleurs, bien des démos présentées par Google démontrent justement cette capacité de l’IA à analyser en temps réel l’image vidéo, une vraie nouveauté.
La force de Gemini est d’avoir été dès le départ entraîné avec des contenus multimodaux ce qui semble lui procurer de nouvelles aptitudes dans sa capacité à comprendre et répondre à des requêtes complexes.
Ainsi, selon Google, Gemini serait capable de comprendre les problèmes mathématiques, de les décomposer et de donner des conseils sur la façon de les résoudre.
Ses capacités de codage en Python, Java, C++ et Go feraient également un bon notable en terme de qualité de code généré. « Sa capacité à travailler dans plusieurs langues et à raisonner sur des informations complexes en fait l’un des principaux modèles fondation mondiaux pour la programmation » affirme Google.
Toujours selon Google « sa remarquable capacité à extraire des informations de centaines de milliers de documents par la lecture, le filtrage et la compréhension des informations permettra de réaliser de nouvelles percées à la vitesse numérique dans de nombreux domaines, de la science à la finance ». Un bémol toutefois. Selon les informations communiquées, la fenêtre contextuelle ne serait que de 32.000 tokens (contre 128.000 pour GPT-4 Turbo) ce qui entrave sérieusement sa capacité à analyser les longs documents et formuler de longues réponses.
Trois modèles pour des usages différents
Gemini va être décliné en trois versions par Google :
– Une version Nano probablement destinée aux applications embarquées, smartphones et objets connectés à l’Edge.
– Une version Pro d’ores et déjà en déploiement dans Bard et dans les solutions Google Cloud (Vertex AI, Gen App Builder, Google AI Studio, etc.). Elle sera officiellement accessible le 13 décembre prochain.
– Une version Ultra qui ne sera pas disponible avant plusieurs semaines voire mois.
Selon Google, Gemini Pro surpasserait PaLM 2 et GPT 3.5 Turbo mais pas GPT-4. En revanche, Gemini Ultra surpasserait GPT-4 dans 30 des 32 benchmarks académiques. Le problème, c’est que finalement, s’ils démontrent des progrès dans les capacités de raisonnement de l’IA, ces tests ne disent rien des tendances ou non aux hallucinations de la nouvelle IA de Google.
Bienvenue en 2024…
Les modèles Gemini restent pour l’instant restreints à l’anglais. Et si la version Pro est effectivement en cours de déploiement dans Bard, elle ne sera – même en anglais – pas accessible aux européens comme c’est désormais une fâcheuse habitude chez les éditeurs américains effrayés par les amendes du RGPD et du DMA.
Par ailleurs, Google semble préparer une version payante de Bard, dénommée Bard Advanced, pour concurrencer ChatGPT Plus. Et de même que le dernier modèles « GPT-4 Turbo Vision » d’OpenAI n’est disponible qu’aux utilisateurs payants, le modèle Gemini Ultra ne le sera qu’aux utilisateurs payants de Bard.
Tout ceci est évidemment très prometteur et alléchant. Sur le papier, Gemini Ultra se veut la nouvelle IA référence en matière de capacités multimodales et de raisonnement. On attend donc avec impatience les retours des utilisateurs américains de Bard pour se faire une idée réelle des progrès perçus en utilisation réelle.
Reste qu’en l’absence d’une version française animée par le modèle « Ultra », Google semble encore loin d’être en position de vraiment concurrencer ChatGPT Plus et Microsoft Copilot dans nos contrées.
En attendant, avec Gemini, Google relance la bataille des IA génératives pour 2024 et on surveillera de près la réaction d’OpenAI et Microsoft mais aussi celle de Cohere, d’Anthropic et des startups françaises comme Mistral AI, Light-On ou Kyutai.