OpenAI dévoile Operator et va donner des sueurs froides à tous les acteurs de la RPA. Cette technologie marque une évolution significative dans l’automatisation des tâches quotidiennes sur le Web et le PC, transformant la manière dont nous interagissons avec les interfaces numériques. Un aperçu d’un futur où nous n’utiliserons plus les logiciels comme nous le faisons depuis les débuts de Windows…

La rumeur courrait depuis des semaines. OpenAI préparait une offensive d’ampleur sur les Agents AI au cœur de ChatGPT avec un premier agent dénommé OpenAI capable de naviguer sur le Web et contrôler l’ordinateur sans présence de l’utilisateur et à la place de l’utilisateur. Dit ainsi, ça ressemble beaucoup aux systèmes RPA d’automatisation des tâches. Sauf que le système est intelligent et qu’on n’a pas à lui apprendre comment faire.

Hier soir, la rumeur est devenue (presque) une réalité. Dit autrement, Operator d’OpenAI est un premier agent intelligent signé OpenAI qui peut naviguer sur le Web et réaliser toutes sortes de tâches pour vous : réserver des billets, trouver puis réserver un restaurant, capturer des données et les réinjecter dans un formulaire, etc. Il suffit de lui dire ce que l’on veut et l’IA découpe sa mission en multiples tâches ou étapes qu’elle concrétise grâce au Web et à l’ordinateur vous évitant l’ouverture de plusieurs fenêtres, des copier/coller, et autres choses peu amusantes et chronophages.

« Grâce à son propre navigateur, il peut consulter une page web et interagir avec celle-ci en tapant du texte, en cliquant et en faisant défiler la page » explique OpenAI avant d’ajouter « Operator est l’un de nos premiers agents IA, des IA capables de travailler de manière autonome — vous lui confiez une tâche et il l’exécute. »

Au cœur de cette innovation se trouve le Computer-Using Agent (CUA), un nouveau modèle IA fusionnant la vision par ordinateur de GPT-4o avec des capacités de raisonnement avancées issues de l’apprentissage par renforcement (et donc des travaux réalisés avec OpenAI o1). Cette architecture permet à Operator d’interagir naturellement avec les interfaces graphiques, manipulant boutons, menus et champs de texte comme le ferait un utilisateur humain.

Operator opère dans son propre navigateur dédié, permettant une exécution sécurisée des tâches tout en maintenant la possibilité d’une reprise en main instantanée des choses par l’utilisateur. Cette flexibilité s’étend à la gestion multitâches, permettant l’exécution simultanée de plusieurs opérations complexes.

Reste qu’Operator n’est pas véritablement disponible. En « early preview », il n’est actuellement accessible qu’aux utilisateurs américains disposant par ailleurs du très onéreux abonnement « ChatGPT Pro » (à 200 dollars par mois).

OpenAI prévoit qu’après cette phase de tests, son Operator soit étendue aux abonnés Plus, Team et Enterprise. Cette stratégie de déploiement progressif permet un affinage continu des capacités d’Operator à travers les retours d’expérience utilisateur.

On rappellera qu’OpenAI n’est pas le seul acteur du marché à s’intéresser aux Agents IA capable de piloter le PC à la place de l’utilisateur. Anthropic expérimente sur Claude AI une fonctionnalité similaire connue sous le nom de « Computer Use ».

Google développe deux projets similaires – connus sous le nom de « Project Mariner » et Project JARVIS – permettant à Gemini de prendre le contrôle de Google Chrome pour aider les utilisateurs à gérer des tâches quotidiennes en ligne, telles que la recherche d’informations, l’achat de produits ou la réservation de vols, grâce à des capacités d’interprétation de l’affichage écran et de contrôle de la souris et du clavier.

De son côté Microsoft vient d’introduire le support des Agents au cœur de Microsoft 365 Copilot Chat et peaufine actuellement une fonctionnalité Copilot Vision qui permet à Copilot de lire ce que vous voyez à l’écran et de vous assister en temps réel.

Reste que le lancement d’OpenAI Operator représente ainsi un jalon supplémentaire franchi dans l’évolution des assistants IA vers des systèmes plus utiles et actifs au quotidien, marquant une transition vers des systèmes véritablement autonomes capables d’interagir avec le web et l’ordinateur de manière naturelle et efficace avec ou sans la présence de l’utilisateur !

