Anthropic affirme automatiser 95 % de ses requêtes analytiques internes via Claude, avec une précision avoisinant les 95 %. La leçon la plus instructive pour les DSI ne tient pourtant pas à la puissance du modèle, mais à la rigueur de gouvernance qui l’encadre.

Confier l’interrogation des données métier à des collaborateurs peu techniques a longtemps relevé du casse-tête. Élargir les tables au profit des non-initiés multiplie les vues redondantes aux définitions incohérentes ; cloisonner les environnements laisse de côté la longue traîne des questions et fait proliférer les tableaux de bord. Les grands modèles de langage ouvrent une troisième voie, mais brancher simplement une IA sur un entrepôt de données crée une illusion de précision dangereuse.

Anthropic dit avoir dépassé cet écueil. Son équipe data science automatise désormais 95 % des requêtes analytiques métier, ce qui la libère pour des travaux plus stratégiques : modélisation causale, prévision, apprentissage automatique. Mais l’éditeur insiste : ce résultat doit bien moins au modèle qu’à la gouvernance des données, aux définitions sémantiques et à une discipline opérationnelle soutenue.

Les données ne sont pas du code

La comparaison avec la génération de code éclaire le problème. Coder est un espace ouvert où la créativité du modèle devient un atout, encadrée par la documentation et les tests. En analytique, il n’existe souvent qu’une seule bonne réponse, issue d’une seule source, sans moyen déterministe d’en prouver l’exactitude. Toute la difficulté réside dans l’ambiguïté : relier une question à la bonne entité du modèle de données.

Trois sources d’erreur reviennent. L’ambiguïté entre concept et entité d’abord : parmi des centaines de champs plausibles, lesquels définissent un utilisateur « actif » ? L’obsolescence ensuite, car schémas et définitions évoluent sans cesse et rendent les réponses subtilement fausses. La défaillance de recherche enfin : l’information existe, correctement annotée, mais l’agent ne la retrouve pas dans l’immensité de l’espace de recherche.

Une pile analytique, pas un modèle providentiel

La parade tient en quatre couches. Des fondations reposant sur un petit ensemble de jeux de données canoniques, faisant autorité et débarrassés de leurs quasi-doublons. Une couche sémantique qui traduit « utilisateurs actifs hebdomadaires » en une entité gouvernée renvoyant toujours le même chiffre. Des compétences (skills) qui encodent la démarche d’un analyste chevronné. Et un dispositif de validation mesurant en continu la justesse des réponses.

L’apport de ces compétences est spectaculaire. Sans elles, Claude ne répondait correctement qu’à 21 % des questions ; avec elles, la précision dépasse durablement 95 % et frôle 99 % dans certains domaines. Mais ces guides se périment vite : faute de maintenance, elle a chuté de 95 % à 65 % en un mois, jusqu’à ce qu’Anthropic traite leur entretien comme une tâche d’ingénierie à part entière. Quant à la validation, elle a un coût : une relecture adverse gagne six points de précision, mais consomme un tiers de jetons supplémentaires et double presque la latence.

L’accès ne suffit pas, la structure prime

L’enseignement le plus contre-intuitif vient d’une expérience négative. En donnant à l’agent un accès direct à des milliers de requêtes SQL historiques, la précision n’a quasiment pas bougé. L’information était présente, l’agent la lisait, mais ne l’exploitait pas. Le goulet d’étranglement n’était pas l’accès aux données, mais leur structuration : la capacité à relier une question à la bonne entité.

Le constat fait écho aux réactions d’une communauté data partagée entre éloges et réserves sur le caractère non déterministe de l’approche. Pour plusieurs praticiens, le véritable secret tient à la couche sémantique : Claude n’interroge jamais les tables directement, il passe d’abord par elle pour identifier dimensions, métriques et jointures. La performance de l’IA, résume un ingénieur, dépend bien moins de la capacité du modèle que de la définition du contexte.

Pour un DSI tenté de répliquer la démarche, l’essentiel tient en trois principes : ramener chaque ambiguïté à une réponse gouvernée unique, la rendre aisément trouvable, et signaler quand elle se périme. Quelques jeux canoniques, une poignée d’évaluations et une compétence de routage suffisent à capter l’essentiel. Le reste, y compris la définition des métriques, doit rester sous responsabilité humaine.

 

 

____________________________

À lire également :

Claude Fable 5 désactivé : Washington prend Anthropic au mot et débranche son IA

Claude Fable 5 : Anthropic démocratise (prudemment) sa classe Mythos

Claude Opus 4.8 : un modèle frontière qui réfléchit plus et bluffe moins

Claude Design : Anthropic s’invite dans le design collaboratif dopé à l’IA agentique

Claude d’Anthropic séduit massivement les entreprises