Fini les aberrations visuelles et les hiéroglyphes textuels : GPT-4o redéfinit la création d’images dans ChatGPT, plus net, plus précis, plus pro et remplace Dall-E 3 !

Décidément, le modèle GPT-4o avait un énorme potentiel encore sous exploité et on ne peut que regretter qu’OpenAI n’ait pas réagi plus vite pour le libérer. Alors que GPT-4o est largement abandonné par les utilisateurs payants de ChatGPT au profit de « o3-mini » et « GPT 4.5 », le modèle démontre qu’il a encore beaucoup à offrir.

Ainsi, en fin de semaine dernière, OpenAI avait ouvert de nouvelles et très étonnantes capacités de reconnaissance et de synthèse vocales supplantant largement les capacités de son vieillissant modèle « Whisper ».

Après « exit Whisper », OpenAI prend tout le monde à contre pied avec un « exit Dall-E 3 » inattendu. Désormais, la génération d’images se fait par le truchement du décidément très multimodal GPT-4o !

OpenAI vient ainsi de dévoiler une mise à niveau majeure des fonctionnalités de génération d’images de ChatGPT, la première depuis plus d’un an. Cette évolution permet désormais au modèle GPT-4o de créer et modifier nativement des images et des photos avec une précision et une qualité très supérieure à l’ancien Dall-E 3.0 qui animait jusqu’ici la génération d’images de ChatGPT.

Cette nouvelle fonctionnalité, qui se distingue par une approche intégrée, fusionne les capacités textuelles et visuelles en un seul système cohérent. « Nous ne séparons plus la génération d’images et la génération de texte. Nous voulons que tout soit fait ensemble », explique Gabriel Goh, chercheur chez OpenAI.

La génération d’images de ChatGPT progresse ainsi sur de nombreux points clés grâce à GPT-4o :

1/ Une meilleure précision pour générer des images complexes, inhabituelles ou conceptuellement sophistiquées. Typiquement, ChatGPT produit beaucoup moins d’aberrations comme les mains à 6 doigts, les corps à 3 bras, les personnages incomplets, etc.

2/ La capacité d’éditer des images existantes, y compris celles comportant des personnes. C’est une amélioration fondamentale ! ChatGPT ne regénère pas une nouvelle image très différente à chaque demande de retouche. Il édite vraiment l’image ce qui permet de la retoucher et de l’améliorer en plusieurs prompts itératifs !

3/ La création de visuels professionnels intégrant du texte lisible, comme des diagrammes, infographies ou logos. ChatGPT progresse ainsi beaucoup notamment en générant désormais du texte toujours lisible plutôt que les anciens hiéroglyphes produits par Dall-E3. Mieux encore, l’IA sait désormais générer des images à fonds transparents, une fonction essentielle pour les logos ou les icônes par exemple.

4/ La génération d’illustrations suivant des instructions détaillées, comme des bandes dessinées à plusieurs panneaux.

Si la génération prend plus de temps qu’avec DALL-E 3 (jusqu’à une minute par image), OpenAI affirme que ce délai est justifié par la qualité supérieure et la richesse des détails produits.

Le déploiement de cette fonctionnalité a déjà commencé pour les abonnés payants et arrive très bientôt pour les utilisateurs gratuits (à raison d’un maximum de trois images générées par jour). Les développeurs utilisant l’API d’OpenAI en bénéficieront aussi dans les prochaines semaines.

Concernant les données d’entraînement, OpenAI indique avoir utilisé des « données publiquement disponibles » ainsi que des données propriétaires issues de partenariats comme celui avec Shutterstock. Brad Lightcap, directeur des opérations d’OpenAI, affirme : « Nous respectons les droits des artistes dans notre approche, et nos politiques empêchent la génération d’images imitant directement le travail d’artistes vivants. »

