Si l’IA ChatGPT et ses dérivées (comme Bing IA ou Microsoft 365 Copilot) font beaucoup d’elles pour leur faculté à entretenir des conversations, d’autres IA génératives sont en train de s’infiltrer dans les processus d’entreprises et en passe de transformer des marchés. Parmi elles, les IA génératrices d’images telles que Dall-E qui transforment la production graphique des équipes marketing mais également le marché de la création numérique et de l’art digital…

DALL-E est une IA capable de créer des images et des œuvres d’art réalistes à partir d’une description en langage naturel. Créée par Open AI (une société de recherche et de déploiement en IA également connue pour ChatGPT), elle est désormais accessible par des API, par une interface Web permettant même l’édition, ou par le nouveau moteur Bing et son IA conversationnelle.

Pour ceux qui se posent la question, DALL-E 2 est une version améliorée de DALL-E 1, avec une plus grande capacité, une résolution plus élevée et une plus grande diversité dans la génération d’images (DALL-E 1 vs DALL-E 2).

Générer des variations d’un tableau connu

Cette IA est capable de générer des variations à partir d’une image originale. Avec la Jeune fille à la perle de Vermeer par exemple, on peut proposer différentes versions.

Les variations produites présentent un ensemble de caractéristiques : une jeune femme blanche, vêtue de tons bleus et jaunes, le visage tourné de trois-quarts sur un fond noir. DALL-E 2 a appris de la composition de l’image d’entrée pour générer un ensemble d’images répondant à ces critères. A noter, si vous décrivez le tableau à quelqu’un qui ne l’a jamais vu, reconnaîtra-il l’original ?

DALL-E peut également ajouter du contexte autour de votre image d’entrée. Peut-être que cette fille prenait un selfie ?

DALL-E peut régénérer une partie d’une image. Pour continuer cet exemple, disons que la fille est en réalité un lapin.

Revisitons American Gothic de Grant Wood

On peut également faire de même avec une œuvre classique de l’art américain ; notamment en augmentant la peinture avec plusieurs itérations de génération de contexte d’image. Ainsi, on créée sa propre version de l’American Gothic de Grant Wood.

Avec quelques demandes spéficiques comme l’ajout d’un chien, d’un coq sur le toit, on peut transformer l’œuvre et l’étendre.

L’avenir de l’art

A travers ces illustrations, DALL-E démontre sa capacité à accélérer le processus de création. DALL-E a été utilisé pour créer des clips vidéo (bien que Make-A-Video de Meta soit plus approprié, mais pas encore disponible pour le grand public). Il a également été utilisé pour créer des couvertures de magazines ou des images d’introduction d’articles sur InformatiqueNews.fr ou sur ITforBusiness.fr. L’image d’accueil de cette tribune est elle-même une création de Dall-E 2.

DALL-E et plus généralement l’IA interroge le rapport que nous entretenons avec l’art. L’amélioration de la technologie dépassera-t-elle notre créativité ? DALL-E ne comprend pas les références physiques dans notre monde. Ainsi, quand on demande à DALL-E de générer l’image correspondant à « la fille prend un selfie », il ne comprend pas que le smartphone est utilisé pour prendre une photo ; mais il reconnaît que l’image d’un bras tendu devant la personne avec le téléphone face à la personne correspond à la requête demandée.

DALL-E a très peu de capacité à généraliser et ne peut qu’extrapoler au mieux. Cela l’empêche de généraliser à de nouvelles situations, de nouveaux styles ou de générer de nouvelles idées.

Considérations éthiques

DALL-E a également été pointé du doigt pour des préjugés raciaux et sexistes. Le terme « personnel navigant de bord » renvoie presque exclusivement à des images de femmes. Open AI doit encore travailler pour garantir les représentations que ces outils peuvent véhiculer.

Par Laurent GAGLIARDI, Consultant IA, Data Science chez Expertime

