Il aura finalement fallu attendre à peine une semaine pour que le mode Agent de ChatGPT, lancé uniquement aux USA, traverse l’Atlantique et se voit accessible aux européens. Ce nouveau mode, né de la fusion de la fonction « Deep Research » et de la fonction expérimentale « Operator », permet d’orchestrer des suites d’actions complexes, enchaînant recherche approfondie, interactions avec des API tierces et exécution automatique de tâches depuis l’interface conviviale et conversationnelle de ChatGPT.

Le mode Agent (Agent Mode) est né de la volonté d’étendre les capacités conversationnelles de ChatGPT vers l’exécution autonome de tâches plus complexes. Plutôt que de se limiter à fournir des réponses textuelles, ChatGPT se transforme en un « assistant exécuteur » capable de dialoguer avec des API externes, de naviguer sur le Web comme un internaute, d’enchaîner plusieurs étapes de raisonnement et de mener à bien des workflows complexes. L’idée est qu’on ne se contente plus d’une simple question-réponse : on invite l’agent à accomplir un processus sous-jacent à notre demande, en pilotant automatiquement chaque sous-étape.

En début d’année, OpenAI répondait à la fonction Computer Use d’Anthropic avec son agent Operator jusqu’ici très expérimental et uniquement accessible à certains clients américains. Operator est un agent IA capable de piloter un navigateur Web pour exécuter des tâches complexes. Quelques semaines après, OpenAI annonçait travailler à la fusion d’Operator et de son autre fonctionnalité agentique « Deep Research ». Cette fusion s’est concrétisée cet été avec l’apparition de « Agent Mode » dans un premier temps uniquement proposé aux utilisateurs américains de ChatGPT Pro (sa version à 200$ par mois).

Mais OpenAI n’aura pas tardé à rendre cette fonctionnalité plus accessible. Elle débarque déjà en France y compris pour les abonnés à ChatGPT Plus et ChatGPT Team.

Le mode Agent pilote un navigateur Web de façon autonome

Concrètement, utiliser le « mode Agent » – disponible dans le sous-menu « Outils » sous la barre de prompt de ChatGPT –  permet à l’IA de naviguer sur internet, cliquer sur des éléments, remplir des formulaires, exécuter du code et produire des livrables exploitables comme des présentations PowerPoint ou des feuilles de calcul. Le système s’appuie sur un nouveau modèle développé spécifiquement, entraîné par apprentissage par renforcement sur des tâches complexes nécessitant l’utilisation coordonnée de multiples outils. L’agent dispose d’un ordinateur virtuel complet intégrant un navigateur visuel, un navigateur textuel optimisé pour le traitement de grandes quantités de texte, un terminal et des accès API directs aux services connectés.

Par exemple, on peut demander d’organiser un voyage d’affaires en laissant l’agent interroger un système de réservation, comparer plusieurs offres de vols et d’hôtels, sélectionner la meilleure option selon nos critères, puis générer un itinéraire final. L’agent peut également planifier des rendez-vous en consultant Google Calendar et OpenTable simultanément, ou encore analyser la concurrence pour générer automatiquement des supports de présentation.

On gagne ainsi en fluidité : plus besoin de jongler entre plusieurs sites ou de copier-coller les données d’un endroit à l’autre. L’agent orchestre tout, en s’appuyant sur des connexions préalablement configurées (plugins, clefs d’API, accès aux bases de données d’entreprise, etc.). Le dialogue reste central, mais derrière chaque réponse se cachent des appels techniques, des navigations automatisées sur des sites Web, des manipulations de données et des choix logiques automatisés.

Des limitations techniques assumées

Malgré ses promesses, le mode Agent n’est pas exempt de limites. D’abord, sa fiabilité dépend étroitement de la qualité des connexions API et de la robustesse des plugins : si une API change son format ou devient indisponible, l’agent peut échouer sans s’en rendre compte immédiatement.

La latence constitue actuellement le principal compromis technique. Certaines tâches peuvent nécessiter 15 à 30 minutes d’exécution. Isa Fulford, responsable recherche sur le projet, assume ce choix : « Nous optimisons Agent Mode pour les tâches difficiles. Même si cela prend une demi-heure, c’est un gain de temps considérable par rapport au temps que vous mettriez à le faire vous-même. »

Les transactions financières restent pour l’instant interdites, et la génération de présentations, bien que fonctionnelle, produit encore des résultats jugés « rudimentaires » en termes de formatage et de finition. L’agent ne peut pas non plus utiliser de modèles PowerPoint existants, contrairement aux feuilles de calcul.

En outre, Agent Mode est plutôt limité dans ses usages sur ChatGPT Plus : vous avez droit à 40 utilisations par mois. Pas plus.

Sur le plan de la sécurité, donner à un agent des droits d’accès à des bases de données sensibles ou à des comptes externes nécessite de veiller scrupuleusement aux permissions, car une requête mal formulée pourrait engendrer des actions non souhaitées. OpenAI a activé ses protocoles de sécurité les plus stricts, notamment ceux conçus pour les « capacités biologiques et chimiques élevées », bien que l’entreprise précise ne pas avoir de preuves directes que le modèle pourrait aider à créer des armes biologiques ou chimiques. La principale vulnérabilité identifiée concerne les attaques par injection de prompts, où des instructions malveillantes cachées dans des pages web pourraient détourner le comportement de l’agent. Pour contrer ce risque, OpenAI a implémenté plusieurs garde-fous : demande de confirmation explicite avant toute action irréversible, mode « Watch » pour les sites sensibles comme les plateformes bancaires, et possibilité pour l’utilisateur d’interrompre ou reprendre le contrôle à tout moment.

En somme, le mode Agent de ChatGPT franchit une étape décisive vers l’automatisation conversationnelle. Il transforme la simple discussion en un véritable processus exécutable, jouant simultanément le rôle de cerveau pensant et de bras opérateur. Il va falloir prendre le temps d’explorer son potentiel pour bien en saisir les limites et les usages.

 

À lire également :

Une IA d’OpenAI obtient la médaille d’or aux Olympiades de mathématiques

OpenAI atteint 10 milliards de revenus et brise son exclusivité avec Microsoft

Surprise : OpenAI finalement déploie son modèle GPT-4.1 sur ChatGPT !

ChatGPT : La nouvelle version de GPT-4o connaît d’inquiétants dérapages…