Face à la montée des modèles IA compacts et puissants, IBM dévoile Granite 3.0, une famille de modèles conçue pour s’adapter aux besoins des entreprises modernes. En combinant pré-entraînement multilingue, fine-tuning avancé et architectures MoE, cette nouvelle offre open-source pourrait bien donner du fil à retordre à Meta et Mistral AI.
Nous avons déjà eu l’occasion de le dire, l’année 2024 marque un tournant probablement décisif dans le monde de l’intelligence artificielle avec l’émergence des petits modèles IA LLM, performants, hautement personnalisables et aisément exécutables en local qui révolutionnent la façon dont les entreprises abordent la technologie. Initiée avec Mistral 7B de Mistral AI, cette tendance n’a fait que s’amplifier avec des modèles comme Google Gemma, Microsoft Phi 3.0, LLama 3.2 et dernièrement le lancement des Ministral 3B et 8B. IBM se joint à cet effort et cette nouvelle vague d’IA avec ses modèles Granite 3.0.
Lors de son événement annuel TechXchange cette semaine, IBM a en effet dévoilé ce que l’éditeur présente comme sa famille de modèles d’IA la plus avancée à ce jour : Granite 3.0. Publiés sous la très permissive licence Apache 2.0, ils viennent ainsi directement faire de l’ombre aux autres modèles open-source de plus en plus prisés par les entreprises à commencer par ceux de Meta et Mistral AI. De par leur compacité, ces modèles sont adaptés à des exécutions en local dans les datacenters des entreprises pour une meilleure confidentialité des échanges.
La famille Granite 3.0 comporte en réalité toute une floppée de modèles :
* Les modèles de langage Granite 3.0 « 2B Base » et « 8B Base » sont les modèles de base préentrainés à partir de 12 000 milliards de tokens en 12 langages humains différents et 116 langages informatiques différents et en s’appuyant sur une nouvelle technique d’apprentissage en deux phases. Les modèles disposent d’une fenêtre contextuelle de 64.000 tokens qui devraient être étendues à 128K d’ici la fin de l’année.
* Les modèles de langage à fine-tuner Granite 3.0 « 2B Instruct » et « 8B Instruct » sont des modèles que l’on peut aisément « fine-tuner » notamment au travers de la technique InstructLab d’IBM et RedHat. Ces modèles compacts et polyvalents sont conçus pour être affinés avec les données d’entreprise et s’intégrer facilement dans divers environnements et flux de travail professionnels. Ils offrent de solides performances pour des tâches comme la génération augmentée par recherche (RAG), la classification, le résumé, l’extraction d’entités et l’utilisation d’outils.
* Les modèles de langage à sécurité renforcée « Granite Guardian 3.0 » dérivent des précédents et sont conçus pour détecter les risques dans les invites et les réponses. La détection des risques est réalisée selon plusieurs dimensions clés répertoriées dans l’Atlas des Risques IA d’IBM. Ces modèles sont entraînés sur des données uniques comprenant des annotations humaines provenant de personnes de diverses origines socio-économiques, ainsi que des données synthétiques issues de tests internes.
* Les modèles Granite 3.0 Mixture-of-Experts 3B-A800M et 1B-A400M (disponibles en version Base et Instruct) sont des modèles avec une architecture MoE pour offrir un meilleur équilibre entre performance et coûts. Ces modèles plus légers et compacts peuvent être déployés pour des applications nécessitant une faible latence ainsi que pour des déploiements sur CPU (donc pour des inférences sans accélération GPU ou NPU). Selon IBM, ils surpassent les modèles LLama Guard de Meta.
* Les modèles « Granite 3.0 Time Series » sont spécifiquement conçus pour les applications nécessitant des prévisions précises basées sur des séries de données temporelles.
Tous ces modèles sont d’ores et déjà disponibles sur le portail d’HuggingFace mais également sur la plateforme watsonx d’IBM. Ils seront prochainement disponibles sous forme de micro-services NIM via la plateforme de NVidia ainsi que dans le Model Garden de Vertex AI (Google Cloud).