Le mois dernier, Google officialisait une nouvelle itération de son modèle multimodal Gemini Pro mais en limitait l’accès à des acteurs triés sur le volet. Le modèle est désormais accessible en preview au sein de sa plateforme Vertex AI ce qui permet aux développeurs de l’exploiter dans des applications d’entreprise.

On ne peut pas dire que le modèle Gemini Pro 1.0 ait réellement impressionné les foules. A plus d’un titre, les IA de jeunes pousses comme Mistral Large de Mistral AI et Claude 3 d’Anthropics se sont finalement révélées plus convaincantes. Mais Google espère revenir dans la course avec une nouvelle itération connue sous le nom de Gemini Pro 1.5 et présentée comme plus performante que Gemini 1.0 Ultra !

L’idée de Google n’est d’ailleurs pas forcément de faire de Gemini l’IA conversationnelle la plus évoluée du monde. Mais plutôt d’en faire l’IA la moins chère et la plus rapide du clan des grands LLM les plus évolués. Et d’ouvrir son IA a des scénarios parfois hors de portée des LLM concurrents. Telles sont exactement les cartes jouées par Gemini Pro 1.5 désormais décliné en deux variantes : une classique limitée à une fenêtre contextuelle de 128.000 tokens et une autre spéciale dotée d’une fenêtre d’un million de tokens. 1 million de Tokens c’est 4 fois plus que Claude 3 et 8 fois plus que GPT-4 Turbo ! De quoi faire avaler à l’IA de Google des ouvrages de plus de 700.000 mots, des codes sources de plus de 30.000 lignes ou encore une heure de vidéo ou 11 heures d’enregistrement audio.

Car telle est l’autre particularité de Gemini Pro 1.5 : le modèle est vraiment multimodal. Outre sa capacité à comprendre et analyser du texte, il peut en faire autant avec des enregistrements audios ou des vidéos. Dès lors, le modèle peut analyser des images fixes ou des vidéos, peut générer des transcriptions de vidéos, peut isoler des séquences dans des enregistrements audios ou vidéos qui répondent à votre question, etc.

Bien évidemment les temps de réponse de l’IA s’allongent avec des fenêtres contextuelles aussi étendues tout comme les risques d’hallucination. Mais Google travaille à diverses optimisations. Et commence doucement à intégrer ce nouveau modèle à ses services. Ainsi, outre l’officialisation de son arrivée en preview dans la galaxie Vertex AI, l’éditeur annonce l’arrivée du modèle dans Gemini Code Assist, son nouvel assistant aux développeurs remplaçant l’ancien Duet AI Code Assist.

Gemini Code Assist se présente en concurrent direct de GitHub Copilot Enterprise et s’intègre directement aux IDE comme VS Code et JetBrains. Profitant de la fenêtre élargie de Gemini 1.5 Pro, Gemini Code Assist offre des fonctionnalités comme « Full Code Awareness » (pour appliquer par l’IA des changements sur toute votre base de codes) ou « Code Customization » (pour connecter l’IA à l’ensemble des codes privés de l’entreprise via le principe du RAG afin de lui inculquer plus de contexte et de connaissance des pratiques de dev de l’entreprise).

 

À lire également :

Next’2024 : Android Studio adopte l’IA Gemini

Google annonce Gemini 1.5 et sa fenêtre contextuelle d’un million de tokens

Bard passe à Gemini en France et partout dans le monde

Le marketing Google lance Gemini… L’IA de 2024 ?