Devenue entité autonome de LMSys et désormais une entité commerciale sous le nom d’Arena Intelligence, la plateforme LMArena (ex Chatbot Arena) étend son spectre d’évaluation à la recherche active d’information Web, révélant les biais et préférences des IA modernes dotées d’une fonction « Search ».

Les benchmarks… Ils ont toujours été très présents dans l’univers IT pour démarquer les processeurs, les plateformes, les bases de données. Et ils sont devenus centraux dans l’écosystème IA si effervescent. Souvent utilisés à tort et à travers par le marketing des acteurs de l’IA, les benchmarks IA, au demeurant très nombreux et très variés, restent de précieux outils pour comprendre comment chaque modèle évolue d’une itération à l’autre et comment l’IA générative dans son ensemble progresse avec le temps et le chemin qu’il lui reste encore à parcourir pour surpasser les humains dans tous les domaines.

Dans cet univers de benchmarks, Chatbot Arena est rapidement devenu un pilier du test des nouveaux modèles qui y sont souvent publiés plus ou moins anonymement pour être testés à petite échelle avant d’être officialisés. Chatbot Arena est sans doute le projet le plus connu du collectif de recherche LMSys à qui l’on doit aussi Vicuna, S-LoRA ou RouteLLM.

Vers une entreprise lucrative

Issu du collectif de recherche LMSys (de UC-Berkeley), LMArena a pris son autonomie en septembre 2024 pour permettre à Chatbot Arena de continuer de s’émanciper. Si Chatbot Arena demeure le principal service de LMArena, le champ couvert par cette entité dépasse désormais le simple benchmarking de chatbots : développement Web, résolution de tâches complexes et exercices de red‑team enrichissent la matrice d’évaluation. Sans couper les ponts avec LMSys, l’équipe ambitionne de « faire progresser l’évaluation ouverte de l’IA et son accessibilité », tout en maintenant la neutralité méthodologique.

Et LMArena est ainsi devenue un outil de référence pour les grands laboratoires d’IA qui l’utilisent afin d’évaluer et comparer leurs modèles. Des entreprises comme OpenAI, Google et Anthropic ont établi des partenariats avec LMArena pour rendre leurs modèles phares disponibles à l’évaluation communautaire.

Selon Bloomberg, LMArena poursuit son évolution. Jusqu’ici principalement financée par des dons et des subventions venues de Kaggle (la plateforme data-science d’Alphabet/Google), d’Andreessen Horowitz et de Together AI, l’entité semble désormais se métamorphoser en structure commerciale avec la création de Arena Intelligence Inc. La nouvelle entreprise veut néanmoins préserver son approche communautaire et open source qui fait son originalité.

Search Arena et ses premiers enseignements

Et dans sa volonté de poursuivre son expansion, LMArena annonce l’arrivée d’un nouveau service de benchmarking : Search Arena. L’idée est d’évaluer la pertinence des IA qui sont capables d’enrichir leurs connaissances par des recherches Web plutôt que de s’appuyer sur le seul savoir issu de leur apprentissage. Dit autrement, les questions dans « Search Arena » doivent se rapporter à des événements récents et des cas d’usage imposant une recherche à travers le Web.

Les premiers résultats de LMArena mettent en avant les modèles Gemini-2.5-Pro-Grounding et Perplexity-Sonar-Reasoning-Pro-High. Le classement repose sur des critères tels que la longueur des réponses, le nombre de citations et la source des citations. Suivent Gemini-2.0-Flash-Grounding, et GPT-4o-search d’OpenAI.

Pourtant, ce classement est moins intéressant que les premières constatations qui émergent des premiers comparatifs. Ils éclairent en effet le fonctionnement même de ces modèles basés sur des recherches WEB :

* Tous ces modèles donnent une préférence à quelques sources de référence comme Wikipedia et les sites des domaines .edu et .gov.
* OpenAI appuie beaucoup ses réponses sur les sites d’actualités.
* Gemini semble largement préférer les Blogs et les ressources communautaires.
* Perplexity tend à se focaliser quasi exclusivement sur les contenus américains et cite très volontiers (et peut-être même trop fréquemment) YouTube.

Des enseignements qui ne manqueront pas d’intéresser DSI, RSSI, développeurs et expérimentateurs d’IA.

 

À lire également :

ARC-AGI-2 : un nouveau benchmark pour guider l’IA vers l’AGI

IBM lance son nouveau mainframe, le z17, bâti pour l’ère de l’IA !

De l’utilité des Benchmarks IA pour les DSI

Benchmark FrontierMath : Un nouveau défi pour l’IA