Mistral AI diversifie ses axes de recherche et ses modèles IA. Avec Voxtral, la jeune pousse affirme devenir la nouvelle référence de la reconnaissance vocale open source, avec deux modèles de 24 et 3 milliards de paramètres taillés pour la production et l’Edge. De quoi offrir aux DSI et RSSI une alternative souveraine, performante et économique aux API propriétaires en matière de reconnaissance vocale et de transcription vocale.

En matière de reconnaissance vocale, d’analyse de la voix par l’IA et de transcription de la parole en texte, les Américains mènent clairement la danse. Le modèle le plus réputé et qui sert de référence est le fameux Whisper v3 d’OpenAI. Mais il a récemment été dépassé par les modes vocaux de Gemini ou encore de GPT-4o.

Jusqu’ici, la jeune pousse française Mistral AI s’était surtout focalisée sur les modèles textuels avec ou sans raisonnement. Elle annonce son entrée dans l’univers de la voix gérée par l’IA générative avec ses nouveaux modèles Voxtral Mini et Voxtral Small qui prétendent surpasser les modèles vocaux d’OpenAI et Gemini !

L’annonce a lieu alors que la startup est au cœur de nombreuses rumeurs. D’une part certaines sources européennes croient savoir que Mistral AI prépare une nouvelle levée de fonds XXL avec un montant annoncé aux alentours du milliard d’euros ! D’autre part, selon Bloomberg, Apple aurait approché la startup en vue de l’acquérir. Apple aurait ainsi des vues sur Mistral AI et sur Perplexity afin de refaire son retard dans le domaine des grands modèles IA.

En attendant, la jeune pousse poursuit ses développements et cherche à imposer son assistant « Le Chat » face à Gemini, ChatGPT, Claude et Grok !

Des nouvelles références « ouvertes » pour la reconnaissance vocale

Reconnue pour ses LLM en open source, ses modèles multimodaux et sa plateforme « souveraine », Mistral AI étend son champ de recherche et propose avec Voxtral sa première famille de modèles audio. Outre que nombre de métiers sont en quête de modèles d’analyse vocale exécutables en local ou sur des infrastructures souveraines afin de transcrire et analyser des échanges vocaux, des interviews, des enregistrements de centres d’appels, etc., Mistral AI avait aussi besoin de tels modèles pour offrir enfin un mode vocal à son assistant « Le Chat », une des rares fonctionnalités encore manquantes par rapport aux concurrents américains.

Avec cette initiative, la société vise directement les DSI à la recherche de solutions vocales fiables, efficaces et abordables, à un moment où la voix redevient un canal d’interaction privilégié dans les organisations.

Positionnée face aux géants américains du secteur, Mistral met en avant l’accessibilité et l’ouverture de Voxtral, qui se démarque par une licence Apache 2.0 et une tarification transparente dès 0,001 dollar la minute (depuis l’API sur La Plateforme de Mistral AI).

Deux modèles compatibles avec une inférence en local

Deux modèles sont proposés : Voxtral Small, doté de 24 milliards de paramètres, et Voxtral Mini, qui en compte 3 milliards.

Ces modèles permettent la transcription et l’analyse de séquences audio, tout en offrant des fonctions avancées, comme la génération de résumés, la détection automatique de la langue, l’interrogation sur les contenus audio, l’interrogation en vocal, etc.

Les modèles prennent en charge l’anglais, le français, l’espagnol, le portugais, l’hindi, l’allemand, le néerlandais et l’italien. Voxtral domine tous les modèles concurrents notamment sur le français.

Une troisième variante, plus épurée, dénommée Voxtral Mini Transcribe, se concentre uniquement sur la transcription et revendique de meilleures performances que Whisper large-v3 à un coût inférieur de moitié.

D’une manière générale, selon Mistral AI, les modèles Voxtral surpassent Whisper v3 d’OpenAI sur plusieurs critères de reconnaissance et se montre compétitifs face à Gemini et GPT‑4o Mini, y compris sur le multilingue.

Du côté des limitations, on notera que la fenêtre contextuelle de 32.000 Tokens limite la taille des fichiers audio fournis à 40 minutes d’enregistrement, et même à 30 minutes pour un usage « Transcription ».

Le Chat bientôt à votre écoute

Au-delà des aspects techniques, Mistral promet des extensions à venir, telles que la reconnaissance de locuteurs, la détection d’émotion, la segmentation audio ou encore la gestion fine des marqueurs non verbaux.

Surtout, Voxtral viendra très bientôt soutenir « Le Chat » et permettra l’interrogation vocale de l’assistant IA de Mistral AI.

Avec ce lancement, Mistral confirme sa volonté de rendre l’intelligence vocale accessible en production, tout en imposant un standard ouvert sur un marché largement dominé par des solutions propriétaires. Le véritable enjeu, pour les DSI et RSSI, sera de mesurer la capacité de Voxtral à s’adapter à leurs exigences métiers et à la complexité des environnements professionnels sans nécessiter d’expertise pointue en intelligence artificielle.

