Lors d’une mini-conférence, OpenAI a dévoilé les prochaines évolutions de ChatGPT avec un nouveau modèle « omni » analysant l’audio, l’image et même la vidéo avec la même agilité que le texte. Les interactions entre l’homme et la machine en sont totalement transformées.
HAL 9000… Le célèbre ordinateur IA de « 2001, l’Odyssée de l’espace » avec sa faculté à dialoguer avec les êtres humains en y mettant toute l’expressivité nécessaire n’est plus une figure de science-fiction. Avec l’annonce hier soir de GPT-4o, « o » comme « omni », l’IA conversationnelle a franchi une étape significative.
ChatGPT était jusqu’ici présenté comme une « IA conversationnelle », mais sa notion de la conversation était limitée. C’était une forme de tour à tour où chacun ne pouvait intervenir qu’une fois l’autre ayant totalement fini de s’exprimer. Et si cette interaction fonctionne assez bien avec un clavier et un écran, elle se révèle bien peu conviviale et humaine dès lors que l’on passe en mode vocal.
Le modèle GPT-4o n’est pas, en soi, significativement plus « intelligent » que son prédécesseur GPT-4 Turbo. Mais ses capacités multimodales temps réel font entrer les interactions dans une nouvelle dimension. Bien sûr, OpenAI a affuté encore les capacités de raisonnement de ChatGPT. Il fait d’indéniables progrès sur les problèmes mathématiques et sur l’analyse de problèmes à tiroirs. Mais la vraie révolution est ailleurs.
Désormais, le modèle GPT-4o peut discuter vocalement exactement comme un être humain. Non seulement il comprend parfaitement l’expression vocale, mais il perçoit aussi les intentions, les variations et le rythme de la discussion. On peut l’interrompre ou le reprendre en cours de réponses pour réorienter la discussion. L’IA sait aussi s’exprimer en y mettant toute l’intonation nécessaire. Elle peut même répondre en chantant si le contexte s’y prête.
Et les capacités de GPT-4o ne s’arrêtent pas là. Le modèle peut comme GPT-4 Vision analyser et interpréter des images. Mais il peut désormais le faire en temps réel sur un flux vidéo ou une image animée en, par exemple, interprétant ce qui se passe sur votre écran grâce à une nouvelle déclinaison « ChatGPT Desktop » qui renforce les interactions entre l’homme, l’IA et l’ordinateur. Plus simplement, « GPT-4o » peut désormais percevoir le monde physique par le truchement de la caméra du smartphone ou de la webcam du PC.
OpenAI a démontré hier en live ce que le marketing de Google avait laissé entrevoir avec des vidéos truquées démontrant le potentiel « théorique » de Gemini Ultra. Google en a rêvé, OpenAI l’a fait.
Durant la démo de 20 minutes, nous avons eu comme une impression de déjà-vu… Ou plutôt l’impression de vivre le processus inverse à celui de 2001 l’Odyssée de l’espace. Dans le film, David « Dave » Bowman éteint petit à petit l’IA HAL 9000 en retirant une à une ses mémoires holographiques. Au fur et à mesure, l’IA rétrograde, remonte le temps de son apprentissage, perd sa personnalité, retourne à l’époque où elle apprenait à chanter des comptines comme un enfant. Avant de finalement s’éteindre par un « Dave, j’ai peur… ».
Hier, OpenAI nous a en quelque sorte donné l’impression de parcourir le chemin inverse démontrant une à une les capacités toujours « plus ‘artificiellement’ humaines » de son IA, capable de raconter des histoires, de les chanter, de faire preuve de patience, d’attention et d’humour. Et bien des internautes ont dû se dire… « ChatGPT, j’ai peur… »
Et si vous n’avez pas encore vu la démo, c’est désormais à votre tour d’avoir peur… et surtout d’être émerveillé. Oui, les progrès de nos IA sont fulgurants… Et c’est à des humains qu’on le doit. Mais difficile, aussi, de ne pas se demander « Humanité, j’ai peur de ce que tu vas faire de ce potentiel… » !
09:42 – Conversation temps-réel
11:50 – Expressivité de l’IA vocale
13:50 – Capacité de l’IA à « voir le monde », à résoudre des problèmes et à guider l’humain
18:30 – l’IA en aide temps réel à la programmation et interactions avancées Desktop
22:10 – L’IA en interprète multilingue temps réel
23:30 – Compréhension des émotions humaines
Voici une autre démo spectaculaire pour bien comprendre l’ensemble des progrès réalisés par GPT-4o et le potentiel de sa perception temps réel du monde.
Et encore une sur la façon dont GPT-4o peut percevoir le monde pour aider les malvoyants
Plus rapide, plus puissant, GPT-4o est d’ores et déjà disponible sur ChatGPT Plus (pour le traitement de textes et d’images) mais aussi sur la version gratuite de ChatGPT avec un nombre d’interactions limité. La version gratuite de ChatGPT bénéficie également du GPT Store et de la personnalisation de l’IA, des fonctions jusqu’ici réservées à la version payante « Plus ». Les fonctionnalités vocales arriveront dans les semaines à venir et seront dans un premier temps réservées aux abonnés ChatGPT Plus et ChatGPT Teams.
On attend désormais la réponse de Google à l’occasion de la conférence Google I/O qui débute ce soir et dans laquelle l’IA devrait une nouvelle fois être mise en vedette, avec de nouvelles surprises à la clé ?