Grok n’a jamais été une IA anodine. Entraînée sur les réseaux sociaux et faisant la promotion de la vision particulière du « free speech » selon Elon Musk, l’IA de xAI a peu de limites. L’arrivée de Grok 3, annoncée comme « l’IA la plus intelligente sur Terre », repose forcément la question clé de la confiance…
Un data center ‘Colossus’ d’environ 100.000 GPU NVidia, 200 millions d’heures de calcul GPU, 10 fois plus de ressource d’entraînement que pour Grok 2… xAI a sorti les grands moyens pour entraîner et créer la troisième génération de son IA conversationnelle Grok.
Attendu à l’origine fin 2024, Grok 3 a donc officiellement été annoncé cette nuit, même si les Européens devront attendre pour en profiter. Grok 3 se démarque non seulement par sa taille et quelques optimisations algorithmiques mais également par l’usage abondant de données synthétiques pour son entraînement, l’intégration de mécanismes d’auto-correction et l’utilisation de l’apprentissage par renforcement pour améliorer ses performances. Le modèle incorpore également des mécanismes « Chain of Thought » qui lui permettent de « raisonner » à l’instar des modèles OpenAI o1/o3 et de DeepSeek R1.
« Grok 3 est effrayamment intelligent » affirme Elon Musk. « C’est l’IA la plus intelligente sur Terre » affirme le milliardaire qui affirmait déjà il y a quelques jours, lors de la sortie d’OpenAI o3, que c’était « probablement la dernière fois qu’une IA était meilleure que Grok ».
Bref, on nage en pleine autosatisfaction, avec à la clé une pléthore de chiffre pour démontrer la suprématie de Grok 3 sur la concurrence.
Dans sa conférence, xAI s’est surtout focalisé sur les benchmarks STEM, autrement dit les benchmarks mathématiques et de programmation.
En la matière, Grok-3 (en mode normal) fait mieux que ses concurrents les plus connus.
Il fait aussi mieux que « OpenAI o1 » quand on active son mode « Big Brain » qui l’encourage à exploiter pleinement ses capacités de raisonnement avancé. Il fait même légèrement mieux que « o3 mini high », dans ce mode « Big Brain ».
Bien évidemment, ces benchs ont été réalisés par xAI qui les a optimisés comme ça l’arrangeait. Et, bien sûr, les benchmarks IA sont assez peu révélateurs des usages réels qu’en font les utilisateurs et de la performance dans ces usages concrets. Ils restent néanmoins d’intéressants outils pour mesurer les progrès théoriques de l’IA générative au fil des mois. En outre xAI, dans sa présentation, a « choisi » ses benchmarks ne dévoilant jamais des jeux complets. Pour se faire une véritable idée, il faudra voir comment l’IA se comporte sur un jeu plus étendu de benchmarks.
On notera néanmoins que sur Chatbot Arena (ex LMSys), où les humains jugent les IA à l’aveugle, Grok 3 s’est immédiatement emparé de la première place.
Même si nos propres évaluations ne sont pour l’instant pas aussi enthousiastes (preuve qu’il y a un monde entre les benchs et les usages concrets), les progrès réalisés par xAI entre Grok 3 et Grok 2 sont évidents. Et Grok 3 entre clairement désormais dans les modèles qui comptent.
2 modèles et un agent
En réalité, xAI n’a pas introduit un nouveau modèle mais deux modèles : « Grok 3 » et « Grok 3 mini ». Le modèle « mini », plus compact, se montre surtout plus rapide à répondre. Toutefois, xAI n’est pas rentré dans les différences techniques entre ses deux modèles.
Pour activer le mode « Thinking » de raisonnement avancé, l’interface de Grok s’est enrichie d’un bouton « Think » qu’il faut utiliser pour forcer le modèle à exploiter ses mécanismes « Chain of Thought ». En outre, il semblerait que Grok propose aussi un mode « Big Brain » équivalent du mode « High Compute » d’OpenAI o3, pour pousser plus loin ses raisonnements en utilise davantage de temps et de ressource de calculs.
A l’occasion de ce lancement, xAI a également dévoilé son premier agent intelligent « Deep Search » destiné à vous économiser des centaines d’heures de recherche sur Google. « Grok Deep Search » est un agent d’exploration du Web et d’automatisation de création de rapport. Il est le concurrent direct des très récemment lancés OpenAI Deep Research, Gemini Deep Research et Perplexity Deep Research.
Par ailleurs, Elon Musk a annoncé l’arrivée d’un mode vocal dans les prochaines semaines pour discuter vocalement avec l’IA de façon naturelle.
Reste la question clé : peut-on lui faire confiance ?
Elon Musk le reconnaît bien volontiers, la version actuelle de Grok 3 est encore brute de décoffrage. « C’est une sorte de version beta » dit-il. Maiss, selon lui, l’IA s’améliore de jours en jours et sera déjà bien plus peaufinée et stable dans une semaine affirme-t-il.
Néanmoins, les entreprises pourront-elles faire confiance à Grok 3 ? On sait que d’une manière générale, l’IA « Grok » ne se veut pas neutre ni politiquement correcte. Elle tend à s’aligner sur les idées conservatrices américaines tendance Trump/Musk. Elle se montre néanmoins souvent beaucoup plus neutre et nuancée que ses « mentors ».
Mais ça ne change en réalité rien à l’affaire. La confiance est quelque chose de complexe et subtil qui se gagne dans la durée (et peut se perdre instantanément). Grok 3 et xAI vont devoir faire leur preuve (tout en rappelant que l’IA n’est pour l’instant pas accessible aux européens).
Dans une volonté affichée de transparence, Elon Musk a affirmé cette nuit que dès que Grok-3 serait totalement finalisé et accepté, dans quelques mois donc, le modèle Grok-2 serait publié en open-source sans préciser néanmoins si l’entreprise publiera tous les codes et jeux de données (c’est fort peu probable) ou simplement le modèle en « open weight ».
Seuls le temps et l’utilisation en conditions réelles permettront d’évaluer le réel potentiel de Grok 3 et la confiance qu’on peut lui accorder. En la matière il sera très intéressant de voir comment Grok-3 résistera dans quelques semaines aux avancées attendues proposées par la sortie prochaine de GPT 4.5 d’OpenAI…