Alors que Meta vient de lancer son nouveau vaste LLM « LLama 3.1 405B », Mistral lui répond du tac au tac avec « Mistral Large 2 », son nouveau LLM commercial considéré comme un modèle « frontière » avec ses 123 milliards de paramètres.
Les modèles de Mistral AI sont réputés pour leur efficience avec des résultats souvent plus pertinents que la concurrence malgré des modèles de moindres paramètres.
En février dernier, Mistral annonçait ses premiers modèles « commerciaux » avec Mistral Small et Mistral Large. Depuis, la jeune pousse française n’a pas chômé. Elle a lancé les IA génératrices de code Codestral 22B et Codestral Mamba ainsi qu’un nouveau petit modèle très optimisé « Mistral NeMo ».
Cette semaine, la startup – qui est l’un des rares acteurs français à oser chatouiller les Américains sur le terrain des LLM « frontières », comprenez des LLM à plusieurs centaines de milliards de paramètres – annonce Mistral Large 2, nouvelle itération de son LLM « Large ».
Selon Mistral, son nouveau LLM voit s’améliorer ses capacités en génération de code, en mathématiques, en raisonnement et en réactivité.
Ce modèle composé de 123 milliards de paramètres est spécialement dimensionné et conçu pour s’exécuter sur un seul nœud NVidia H100 pour produire plus rapidement et plus efficacement les réponses. Il prend en charge un large éventail de langues humaines, notamment le français, l’allemand, l’espagnol, l’italien, le portugais, l’arabe, l’hindi, le russe, le chinois, le japonais et le coréen. Mais, il gère également plus de 80 langages de programmation, tels que Python, Java, C, C++, JavaScript et Bash. Il dispose d’une fenêtre contextuelle de 128 000 tokens soit un livre d’environ 300 pages.
Côté pertinence des résultats générés, Mistral Large 2 joue dans la même catégorie que LLama 3.1 405B, Claude 3.5 Sonnet et GPT-4o ! Autant dire que le modèle est l’un des plus performants du marché, l’un des plus doués en français notamment.
Selon Mistral AI, ce nouveau modèle se révèle particulièrement meilleur que l’ancien « Mistral Large » dans le suivi d’instructions précises et la gestion de longues discussions avec des dizaines d’échanges.
Par ailleurs, Mistral AI a forgé son design pour minimiser les tendances à halluciner de cette génération de modèles IA. Il est également entraîné pour reconnaître lorsqu’il ne peut trouver de solutions ou s’il ne dispose pas des informations nécessaires pour répondre de façon pertinente.
Enfin, Mistral Large 2 est aussi plus compétent en termes d’appel de fonctions et de récupération de données. Les appels de fonction peuvent être réalisés en parallèles et séquentiels, ce qui rend ce modèle particulièrement adapté aux applications commerciales complexes.
Mistral Large 2 est publié à la fois avec une licence commerciale et avec une licence ouverte spéciale « Mistral Research License » uniquement pour les usages non commerciaux et de recherche en IA.
Ce nouveau LLM est d’ores et déjà disponible sous « Le Chat » (le concurrent de ChatGPT de Mistral AI) et sur sa plateforme MaaS « La Plateforme ». Il est également disponible sur Azure AI, Google Vertex AI, AWS Bedrock et IBM watsonx.
Au final, il est quand même très rassurant de voir le dynamisme de Mistral AI et sa capacité – malgré ses budgets bien inférieurs – à ne pas se laisser distancer par les américains en proposant de nouveaux modèles très compétitifs à un rythme soutenu.