Intensifiant ses efforts pour imposer Gemini sur le marché et concurrencer OpenAI, Google annonce un ensemble de nouvelles fonctionnalités pour combler son retard sur ChatGPT et lance de nouveaux modèles pour mieux satisfaire la diversité des cas d’usage de l’IA générative en entreprise.

Google a annoncé tout un flot de nouveautés pour son IA conversationnelle concurrente de ChatGPT. Gemini – et plus précisément sa version payante Gemini Advanced. Très concurrencé par OpenAI (ChatGPT), Anthropic (Claude AI), Mistral AI (Le Chat, Mistral Large 2), Google fait feu de tout bois pour rester dans la course et imposer ses intelligences artificielles.

Des Gems pour concurrence les GPTs

La principale annonce de la semaine, c’est l’arrivée des Gems, autrement dit des IA conversationnelles spécialisées et/ou personnalisées basées sur Gemini. Les Gems sont à Gemini ce que les GPTs sont à ChatGPT. Ils tendent à transformer l’assistant IA en un expert sur un sujet donné.

Disponible pour les abonnés à Gemini Advanced, Business et Enterprise, donc aux abonnés payants, les Gems permettent à chacun de personnaliser Gemini pour se créer ses propres experts puis discuter avec eux. Tout comme les GPTs, la création d’un Gem se fait en discutant avec l’IA pour lui imposer des objectifs spécifiques et lui expliquer ce qu’on attend d’elle. Il suffit ensuite de discuter avec ce Gem comme on le fait avec Gemini. Le Gem mémorise vos instructions de sorte que vous n’ayez plus à les reformuler à chaque fois, ce qui fait gagner un temps précieux si on utilise Gemini un peu toujours de la même façon dans un contexte donné.
Par ailleurs, Google propose quelques Gems « maison » prédéfinis et aisément accessibles qui ont été spécialisés et instruits dans un objectif bien déterminé :

  • Le Gem « Coach pour apprendre » est un assistant pour vous aider à décomposer des sujets complexes sur lesquels vous débuter. Il rend le sujet plus facile à comprendre, propose un apprentissage progressif ainsi que des jeux pour réviser votre apprentissage.
  • Le Gem « Assistant au brainstorming » propose une approche itérative et originale pour vous aider à trouver l’inspiration et organiser une fête à thème ou un cadeau d’anniversaire parfait.
  • Le Gem « Guide de carrière » vous aide à explorer votre potentiel professionnel et faire évoluer votre parcours en vous suggérant des plans détaillés pour développer vos compétences et atteindre vos objectifs de carrière.
  • Le Gem « Assistant d’écriture » vous assiste dans la rédaction de vos textes, articles de blog, rapports, tribunes en proposant des réécritures, en suggérant des améliorations ou des sujets, en corrigeant les fautes de grammaire ou de syntaxe.
  • Le Gem « Partenaire de code » vous assiste dans vos efforts de programmation et améliore vos compétences en codage. Il vous aide à construire vos projets et à apprendre au fur et à mesure.

Exemple avec le Gem « Coach pour Apprendre » :

Une création d’images intégrée

Google avait bridé les capacités de création d’images de son IA après quelques « dérapages » survenus lors de l’introduction de ce potentiel il y a quelques semaines. La fonctionnalité fait son retour de façon complète avec l’introduction du nouveau modèle de génération d’images « Imagen 3 » de Google. Vous pouvez ainsi demander à Gemini de créer des images dans différents styles, comme des paysages photoréalistes, des peintures à l’huile texturées ou des scènes d’animation fantaisistes en pâte à modeler. Il est même possible de lui demander de générer des personnes même si cette fonctionnalité reste réduite aux demandes formulées en anglais et aux abonnés « Gemini Advanced ».

L’analyse de documents et de données

Google annonce une amélioration des capacités d’analyse de son IA. Nous allons tous enfin vraiment pouvoir profiter de la fenêtre contextuelle record de Gemini Pro 1.5 (à savoir 1 million de tokens). En effet, Gemini Advanced propose une nouvelle option qui permet d’envoyer à l’IA jusqu’à 10 documents d’un coup pour analyse. Ces documents peuvent être aussi bien des textes (TXT, DOC, DOCX, PDF, RTF, DOT, DOTX, HWP, HWPX) que des fichiers de données à analyser (XLS, XLSX, CSV, TSV). Bien évidemment, Gemini Advanced sait aussi analyser les documents Google Docs et Google Sheets. Une fois les éléments ingérés, on peut alors discuter avec Gemini pour obtenir des résumés, faire des rapprochements et des comparaisons, questionner l’IA sur les thèmes de ces documents, tirer des insights des données, etc.

De nouveaux modèles

Pour rappel, Gemini dans sa version gratuite est animée par le modèle « Gemini Flash » alors que la version payante « Gemini Advanced » bénéficie du modèle ‘frontière’ Gemini Pro 1.5.

Google a profité des annonces pour introduire une mise à jour « Gemini 1.5 Flash » dans la version gratuite qui dispose désormais d’une fenêtre contextuelle de 32.000 tokens.

L’éditeur a également lancé une version encore plus compacte de ce modèle dénommée « Gemini 1.5 Flash 8B ». Modèle multimodal de 8 milliards de paramètres, il peut être potentiellement exécuté en local et trouve ses usages dans les applications nécessitant des traitements IA ultra-rapides pour synthétiser des données de documents volumineux, obtenir des résumés de textes à grande échelle, interagir en langage naturel avec des temps de réponse en millisecondes.

Enfin Google lance une « mise à jour » de son modèle frontière « Gemini 1.5 Pro ». Cette nouvelle version n’est pas une simple itération selon l’éditeur. Elle surpasse la version précédente dans tous les aspects mais notamment dans la gestion des prompts complexes et dans la génération de lignes de code.

Ces trois nouveaux modèles encore expérimentaux sont disponibles via l’API Gemini, Vertex AI et Google AI Studio.

Gemini dans Chrome

Plus besoin désormais d’aller sur le site Gemini manuellement. On peut interroger l’IA directement depuis la barre de saisie des URL de Google Chrome. Il suffit de commencer la question par « @Gemini ».

Avec toutes ces améliorations, Google espère séduire les utilisateurs d’IA et les amener à adopter « Gemini Advanced », la version payante de son assistant, concurrente de ChatGPT Plus, Microsoft Copîlot Pro, et de Claude AI Professional.

 

À lire également :

Next’24 : Gemini Pro 1.5 devient accessible aux développeurs

Google annonce Gemini 1.5 et sa fenêtre contextuelle d’un million de tokens

Google Cloud Next’24 : Des modèles et du muscle pour l’IA

OpenAI lance SearchGPT, son propre moteur de recherche Web

ChatGPT : Mistral AI lance « Le Chat » et ce n’est pas une lessive

Anthropic lance Claude 3.5 annoncé meilleur que GPT-4o