Un chatbot n’a pas besoin d’avoir raison pour paraître brillant : il lui suffit d’écrire comme un humain, avec ses hésitations, ses reformulations et ses “Bonjour”. Problème : cette UX booste l’illusion, puis transforme la première hallucination en claque monumentale, surtout quand la machine rate un filtrage basique que n’importe quel logiciel sait faire. La vraie bataille de la GenAI se joue donc dans l’interface : apprendre à dire “je ne sais pas”, détecter les réponses douteuses et recadrer l’utilisateur en temps réel.
L’intelligence est, par nature, très difficile à prouver. Depuis l’enfance, nous sommes entraînés à juger sur les apparences et à croire seulement ce que l’on voit. Dès lors que quelqu’un adopte certains codes, manières et discours, nous en concluons que la fonction ou la qualité qu’il revendique est bien la sienne. Ainsi, nous partons du principe que ce qui semble intelligent l’est réellement.
C’est d’ailleurs le postulat du test de Turing : si une machine peut tromper un humain en lui faisant croire qu’elle est humaine, alors elle est forcément intelligente. Par conséquent, l’IA consiste principalement à imiter l’intelligence afin d’en revêtir l’apparence.
L’UX, ou l’art d’appeler un chat un chat
C’est là que l’UX (l’expérience utilisateur) entre en jeu. En effet, l’UX influence la perception qu’a l’utilisateur de n’importe quelle application d’IA. Un point d’accès API[1] ne semble pas intelligent pour la plupart des gens, mais une interface de chatbot peut le paraître, même si les deux sont équivalents.
Pour comprendre ce qui donne un air intelligent à un chatbot, il faut s’efforcer d’oublier un instant la qualité de ses réponses. En effet, comme l’a affirmé Alan Turing : « L’issue du test ne reposerait pas sur l’exactitude des réponses fournies par la machine, mais seulement sur leur degré de similitude avec les réponses humaines » et force est de constater que les humains donnent assez souvent de mauvaises réponses.
La première chose à noter est son temps de réponse : celle-ci ne s’affiche pas d’un coup. En effet, il fait des pauses entre les parties de la réponse, comme s’il hésitait, cherchant la meilleure façon de développer son propos, tout comme nous le faisons dans nos conversations quotidiennes. En réalité, le modèle de langage (LLM) ne fait pas de pause parce qu’il hésite, mais simplement parce qu’il lui faut du temps pour calculer la suite de mots la plus probable.
Mais quelle est la différence avec notre cerveau ? Nous avons l’impression que ces pauses sont la preuve que nous réfléchissons à la réponse la plus pertinente qui soit. Inconsciemment, notre cerveau ne calcule-t-il pas simplement le mot le plus probable à évoquer lui aussi ? Quoi qu’il en soit, ces pauses donnent au chatbot un air intelligent.
Le deuxième constat à effectuer est la façon dont le chatbot reformule ses propos. Plutôt que de nous fournir des données brutes d’origine, il produit une nouvelle phrase, et c’est notre tendance naturelle à l’anthropomorphisme qui nous fait croire que s’il reformule, c’est parce qu’il comprend.
En réalité, il ne comprend pas. Là encore, s’il reformule, c’est uniquement parce que les LLM peuvent être considérés comme des algorithmes de compression : ils raccourcissent le texte, avec une perte d’informations, ce qui les rend incapables de restaurer la formulation initiale.
Il y a ainsi pléthore d’autres détails, tels que sa façon de dire « Bonjour » (aucune des bases de données SQL[2] les plus utilisées ne dit jamais « Bonjour »), sa gestion des emojis, sa façon de s’adapter à l’humeur de l’utilisateur, etc., qui donnent au chatbot un air intelligent.
Nous constatons que l’expérience utilisateur globale avec l’IA générative (GenAI) est très efficace pour construire l’illusion de l’intelligence, ce qui renforce la confiance de l’utilisateur. Néanmoins, c’est une arme à double tranchant.
La bêtise est le propre de l’intelligence
L’intelligence et la bêtise sont les deux faces d’une même pièce car la bêtise ne s’applique qu’à ce qui est censé être intelligent. Si un caillou ne comprend pas une question, il n’est pas stupide, c’est simplement un caillou. Si un chat demande à sortir, que son propriétaire ouvre la porte et qu’il ne sort pas, il sera plus enclin à le qualifier de stupide (surtout s’il le réveille à 3h00 du matin pour ça), car il a une certaine attente d’intelligence de la part de son chat.
Tout est une question d’attente. Plus l’attente est élevée, plus le risque d’être déçu est grand. Nous venons d’expliquer que l’UX autour de la GenAI a tendance à développer des attentes très élevées chez l’utilisateur (en partie à cause de l’anthropomorphisme et des malentendus courants sur l’IA, et en partie parce que votre équipe UX fait bien son travail). Le risque de déception est donc élevé.
Cette déception sera certaine car l’IA n’est pas intelligente. Elle fait simplement croire qu’elle l’est. Supposons que l’utilisateur ait oublié de mentionner la date du jour dans son prompt, il va passer un excellent moment à discuter avec l’IA, puis lui demander : « Que s’est-il passé d’autre depuis hier ? ». Il est alors très probable que l’IA produise une réponse erronée, car elle ne connaît pas la date du jour. De plus, elle n’a pas conscience qu’elle ne sait pas, alors elle va simplement inventer quelque chose et paraître stupide.
La déception sera immense, car l’utilisateur avait le sentiment de discuter avec un pair (ou presque), quand bien même il avait conscience que ce n’était pas le cas. Tous les utilisateurs savent que n’importe quel logiciel qu’ils utilisent quotidiennement est capable de filtrer par date : ils voient donc un système « humain » incapable de comprendre une question simple, mais aussi un logiciel incapable de réaliser une tâche de filtrage basique.
Comment gérer les attentes de l’utilisateur ?
Lors de la construction de l’UX autour d’une GenIA, il est important de maintenir un équilibre fragile entre rendre une application digne de confiance et ne pas faire trop de fausses promesses.
La première chose à faire est de s’assurer que l’utilisateur comprend les limites du système. Il peut le faire en forçant l’IA à dire « Je ne sais pas », lorsqu’elle ignore la réponse, ou « Je ne suis pas sûr, mais je pense que… », en cas de doute.
Ensuite, il faut essayer d’identifier les mauvaises réponses, notamment en surveillant celles proposées par le chat et en ayant recours à un modèle d’évaluation, comme REMi. On peut également essayer de détecter les erreurs en temps réel pour proposer des solutions alternatives. Par exemple, mettre en avant les termes de la question qui semblent confus pour le LLM ou, dans le cas du RAG (Retrieval-Augmented Generation), expliquer que le contexte ne semble pas assez pertinent et proposer d’autres questions plus cohérentes.
Il est crucial d’être transparent : le système n’est pas magique. En effet, c’est un assistant intelligent, mais cela reste un assistant. L’utilisateur est celui qui dirige le processus: il doit donc avoir conscience qu’il ne peut pas suivre aveuglément un GPS qui le conduirait dans une impasse.
En conclusion, l’UX dans un projet de GenAI repose conjointement sur les techniques d’IA (prompt, frameworks d’évaluation, etc) et sur les interactions avec l’interface. C’est à la fois une tâche complexe, car elle implique un mélange de compétences, une collaboration interdisciplinaire, et une mission très gratifiante puisqu’elle est la clé du succès d’un projet d’IA.
____________________________
Par Eric Bréhault, Software Engineer, Principal chez Progress





puis