La maîtrise de la voix devient un enjeu central dans le développement des Ia conversationnels et d’agents IA performants et interactifs. Entre transcriptions robustes, personnalisation expressive et optimisation des interactions en temps réel, OpenAI déploie déploie de nouvelles briques fondamentales centrées sur l’amélioration des échanges entre l’homme et la machine par la voix.

OpenAI semble dans une phase préparatoire à toute une série d’évolutions majeures. On sait que l’éditeur travaille activement à sa nouvelle génération de modèles hybrides que doit inaugurer le futur GPT-5, mais aussi à une plateforme d’orchestration d’agents IA. Ces derniers jours, ces travaux préparatoires ont amené OpenAI à lancer toute une série d’améliorations autour des interactions vocales et de la gestion de la voix par les IA.

OpenAI dynamise les interactions vocales de ChatGPT

L’été dernier, OpenAI avait inauguré de nouvelles technologies IA vocales pour permettre des interactions plus naturelles avec les assistants IA. Ces technologies se sont concrétisées par le « mode vocal avancé » de ChatGPT et ont été maintes fois copiées par la concurrence depuis.

Et OpenAI continue de plancher sur ce sujet. Dans une vidéo, Manuka Stratta, chercheuse au sein de l’équipe post-entraînement d’OpenAI, montre d’importantes évolutions du mode vocal de ChatGPT. Notamment, l’utilisateur peut désormais s’offrir une pause pour réfléchir au milieu d’une phrase sans pour autant être interrompu par ChatGPT. Et dans les versions payantes de ChatGPT, l’assistant se montre désormais plus direct, engageant, concis et créatif, avec la possibilité de sélectionner l’une des neuf voix (ou plus exactement l’une des neuf personnalités) proposées.

Une récente étude menée par OpenAI et le MIT a montré que l’interaction vocale jouait un rôle clé sur l’impact émotionnel des utilisateurs et que des interactions mieux maîtrisées et plus « humaines » pouvaient éviter des réactions psychologiques intenses chez l’utilisateur.

 

Des modèles vocaux pour des Agents IA plus interactifs

Parallèlement aux progrès réalisés par ChatGPT dans ses interactions vocales avec l’humain, OpenAI soigne aussi ses API audio, sachant que celles-ci seront indispensables aux futurs agents IA qui devront comprendre ou interagir par la parole.

OpenAI avait déjà largement affirmé sa maîtrise technique du « speech to text », autrement dit de l’analyse vocale et la retranscription de la parole, avec son modèle Whisper en open source.

Avec les nouveaux modèles vocaux (et les API pour les utiliser) « gpt-4o-transcribe » et « gpt-4o-mini-transcribe », OpenAI introduit des alternatives plus modernes à ses modèles Whisper. Les nouveaux modèles promettent une transcription vocale nettement améliorée, y compris dans des environnements bruyants ou avec des accents diversifiés. Jeff Harris, responsable produit chez OpenAI, assure même que ces modèles « réduisent considérablement les risques d’hallucination », là où Whisper avait tendance à inventer du contenu lorsqu’il rencontrait des difficultés audio.

En parallèle, OpenAI perfectionne également la synthèse vocale afin de rendre la communication homme-machine beaucoup plus fluide et naturelle, notamment pour les agents dédiés à la vente ou au support technique. Le modèle « gpt-4o-mini-tts » permet notamment aux développeurs d’influencer le ton et le style vocal des agents IA. Désormais, des instructions précises, telles que « parle comme un scientifique fou » ou « adopte une voix calme et pédagogique comme un enseignant » permettront de personnaliser simplement l’expression vocale de l’IA et donc au final l’expérience utilisateur. Jeff Harris souligne l’importance de cette nouveauté : « Dans de nombreuses situations, une voix monotone ne suffit pas. Nous pensons que développeurs et utilisateurs souhaitent maîtriser non seulement ce qui est communiqué, mais aussi comment cela est transmis. »

Contrairement à Whisper, ces nouveaux modèles « audio » sont de taille imposante et ne seront donc proposés que via le cloud au travers des API de la plateforme d’OpenAI et de la plateforme de Microsoft (Azure OpenAI Service).

 

À lire également :

Avec Alexa+, Amazon veut concurrencer ChatGPT, Gemini et Copilot

OpenAI lance de nouveaux outils pour la création d’agents IA

Microsoft et OpenAI s’éloignent l’un de l’autre peu à peu

OpenAI lance GPT 4.5, son dernier modèle LLM classique

Voice Engine d’OpenAI imite votre voix en 15 secondes…

Microsoft a une IA qui imite (trop) aisément votre voix

Red Hat et IBM Research veulent piloter les SI à la voix