La guerre des IA se poursuit. Quelques jours après la disponibilité US de Gemini Ultra 1.0 et le dévoilement de Sora d’OpenAI, Google annonce la version 1.5 de Gemini avec une pléthore d’améliorations et une fenêtre contextuelle record !

Google multiplie ses efforts pour rattraper son retard sur GPT 4 Turbo Vision, le modèle LLM le plus avancé d’OpenAI. L’éditeur annonce la disponibilité en preview privée de Gemini 1.5 Pro, la nouvelle mouture de son IA « Gemini Pro » qui anime son intelligence conversationnelle Gemini (ex BARD).

Gemini 1.5 se distingue de Gemini 1.0 par deux nouveautés majeures : la fenêtre contextuelle étendue et l’approche MoE.

1.000.000 de Tokens !

La fenêtre d’un LLM est un paramètre clé de fonctionnement d’une IA. Plus la fenêtre contextuelle est grande, plus l’IA peut absorber des prompts longs et analyser des documents longs, et plus elle est aussi capable de générer des textes longs. Malheureusement les risques d’hallucinations augmentent avec la taille de la fenêtre.

Pour donner une idée, la fenêtre contextuelle de GPT 3.5 Turbo est de 16 385 Tokens (il faut 2 à 3 tokens pour former un mot en moyenne) et celle de GPT 4 Turbo de 128 000 Tokens.

Jusqu’ici le record de taille pour une fenêtre contextuelle était les 200.000 Tokens du modèle fondation Claude 2.1 d’Anthropic.

Alors forcément, l’annonce de Google surprend et représente un saut important. Bien que fonctionnant par défaut avec une fenêtre contextuelle de 128 000 tokens, le modèle Gemini 1.5 sera aussi proposé en version étendue avec une fenêtre de 1 million de tokens ! Voilà qui permet de lui faire ingurgiter pour analyse des documents bien plus volumineux voire des vidéos de plus d’une heure !

Google AI Studio permettra ainsi par exemple de soumettre simultanément plusieurs textes ou documents au modèle avant de l’interroger et de lui demander de tracer des corrélations.

Une approche « Mixture of Experts »

Autre nouveauté, l’approche de Gemini 1.5 Pro – modèle donné comme multimodal – adopte le principe « MoE » ou « Mixture of Experts ». Cette approche par « mélange d’expertise » est une technique de Machine Learning où plusieurs réseaux experts (apprenants) sont utilisés pour diviser un espace de problèmes en régions homogènes. Dit autrement, elle consiste à utiliser plusieurs modèles spécialisés, appelés « experts », chacun étant formé pour être performant sur une sous-partie spécifique des données ou sur un type de tâche particulier.

L’intérêt premier de l’approche MoE est d’offrir bien plus de scalabilité et de modularité donc de produire des réponses plus rapidement mais éventuellement aussi plus justes, la notion d’experts permettant de mieux focaliser le champ de réponse.

Il va falloir un peu attendre pour en profiter. D’une part attendre que le modèle soit éprouvé et approuvé par les testeurs, ensuite que Google l’intègre à son interface conversationnelle et enfin que l’éditeur en étende son accès à l’international. Rappelons que les Français n’ont toujours pas accès au modèle multimodal avancé Gemini Ultra 1.0 ni à la version payante de l’interface conversationnelle Gemini Advanced.

 

À lire également :

OpenAI éblouit la sphère Internet avec sa nouvelle IA vidéo : Sora

Google renomme Bard en Gemini et lance sa version payante basée sur le modèle Ultra

Rumeur : OpenAI développerait un moteur de recherche Web basé sur ses IA

La Chine, la Russie, l’Iran et la Corée du Nord utilisent ChatGPT comme une arme

OpenAI donne de la mémoire à ChatGPT