Accélération, adaptation, réflexion, rentabilité : Gemini 2.5 Flash coche toutes les cases pour déployer de l’IA qui raisonne à grande échelle sans faire exploser les coûts. Google muscle ainsi sa nouvelle génération de modèles hybrides un modèle rapide, malin, et surtout taillé pour les volumes.

Google accélère la sortie de ses modèles. Gemini 2.0 Flash avait été annoncé et mis à disposition des utilisateurs en décembre dernier et se voulait inaugurer l’ère des agents intelligents.
Il y a deux semaines, Google introduisait déjà sa nouvelle famille Gemini 2.5 de modèles ‘hybrides’ capables de raisonner avec plus ou moins d’intensité avant de répondre en fonction de la complexité du prompt de l’utilisateur. Jusqu’ici, seul Gemini 2.5 Pro avait été dévoilé et rendu disponible en preview dans l’application Gemini.

À l’occasion du Google Cloud Next’25 qui s’est ouvert cette semaine à Las Vegas, Google a annoncé la disponibilité très prochaine de Gemini 2.5 Flash, un modèle hybride (donc à raisonnement, comme Deep Seek R1, Claude Sonnet 3.7 ou OpenAI o3-mini) conçu pour équilibrer performance et rentabilité, spécifiquement adapté aux besoins des entreprises qui déploient l’intelligence artificielle à grande échelle.

Flash 2.5 se positionne comme un modèle polyvalent axé sur les cas d’utilisation quotidiens où la maîtrise des coûts est primordiale. Disponible via la plateforme Vertex AI, ce modèle est particulièrement adapté aux interactions clients à haut volume nécessitant des réponses rapides, des résumés en temps réel ou un accès rapide aux documents.

« Flash est idéal pour les cas d’utilisation quotidiens comme fournir des réponses rapides lors d’interactions clients à fort volume, où des résumés en temps réel ou un accès rapide aux documents sont nécessaires, » explique Thomas Kurian le CEO de Google Cloud.

Jusqu’ici, les modèles à raisonnement, ce que Google appelle les « Thinking Models » affichaient des coûts largement plus élevés que les modèles traditionnels pour compenser les dépenses en ressources CPU et mémoire engendrés par la phase de réflexion. Google 2.5 Flash rend désormais l’usage de tels modèles plus accessible aux entreprises. Sa particularité réside dans sa capacité à ajuster automatiquement son « budget de réflexion » en fonction de la complexité des requêtes : Pour les demandes simples, Gemini 2.5 opère un traitement rapide avec une consommation minimale de ressources alors que pour les questions complexes, il adapte son niveau et ses capacités de raisonnement.

« Avec Gemini 2.5 vous disposez d’un contrôle granulaire sur ce budget de réflexion, permettant un réglage explicite de l’équilibre entre vitesse, précision et coût selon vos besoins spécifiques, » précise Jason Gleman de Google Cloud dans un billet de blog. « Cette flexibilité est essentielle pour optimiser les performances de Flash 2.5 dans les applications à haut volume et sensibles aux coûts. »

Pour Google :
* Gemini 2.5 Pro est optimisé pour la précision, adapté à l’écriture et au débogage de code complexe ou à l’extraction d’informations critiques dans des documents médicaux.
* Gemini 2.5 Flash est le modèle « workhorse » conçu pour la latence réduite et l’efficacité des coûts, idéal pour les tâches quotidiennes et les interactions à haut volume.

Google a également annoncé que sa famille de modèles Gemini sera désormais également disponible sur Google Distributed Cloud, apportant la puissance de l’IA sur site – un point important pour les entreprises comme les opérateurs télécoms et les organisations de santé soumises à des exigences strictes de résidence et de confidentialité des données.

Gemini 2.5 Flash est attendu dans les prochains jours aussi bien dans Vertex AI que dans l’app Gemini. Google n’a pas encore dévoilé de résultats sur les benchmarks IA.

 

À lire également :

Google dévoile son IA hybride Gemini 2.5

Google complète sa famille Gemini 2.0

Avec Alexa+, Amazon veut concurrencer ChatGPT, Gemini et Copilot

8 nouveautés majeures pour Microsoft Copilot et une IA plus personnelle