L’application Gemini intègre désormais Lyria 3, le modèle d’IA générative musicale le plus avancé de Google DeepMind. Texte, photo ou vidéo : quelques secondes suffisent désormais pour produire un morceau de 30 secondes complet, avec voix, paroles et pochette. Après Nano Banana Pro et Veo 3, Gemini s’attaque à un nouveau terrain créatif avec toujours autant de… talent !
L’IA générative ne cesse de repousser les frontières de la créativité. Du texte à l’image, de la vidéo au code informatique, des présentations professionnelles aux agents conversationnels, les modèles génératifs ont investi pratiquement tous les territoires de la production numérique en l’espace de trois ans. Il restait pourtant un bastion particulièrement complexe à conquérir : la musique. Car générer un morceau cohérent, avec mélodie, harmonie, rythme, timbres et voix superposés, représente un défi technique autrement plus redoutable que la génération de texte ou même d’images.
Un marché de l’IA musicale en pleine structuration
Le paysage de la génération musicale par IA connaît une transformation accélérée. Suno et Udio, les deux pionniers du secteur, ont ouvert la voie fin 2023 en démontrant qu’il était possible de produire des morceaux de qualité studio à partir d’un simple prompt textuel. Suno, dont la valorisation a atteint 2 milliards de dollars, reste la référence pour la création de chansons complètes avec voix et paroles. Udio, fondé par d’anciens ingénieurs de Google DeepMind, s’est distingué par la qualité de sa production instrumentale.
Le marché a toutefois traversé une phase de turbulences juridiques considérable. En 2024, les trois majors – Universal Music Group, Sony Music et Warner Music Group – avaient engagé des poursuites de 500 millions de dollars contre les deux plateformes pour violation massive de droits d’auteur. La situation a sensiblement évolué depuis : Udio a conclu des accords de licence avec Universal puis Warner fin 2025, acceptant de pivoter vers une plateforme d’engagement de fans basée sur le remix de contenus sous licence. Suno a suivi avec un accord avec Warner. L’ère de la confrontation cède progressivement la place à celle de la coopération encadrée.
Parallèlement, d’autres acteurs montent en puissance. ElevenLabs a lancé Eleven Music en août 2025 avec des licences commerciales validées. Beatoven.ai se positionne sur le créneau de la musique éthiquement sourcée avec sa certification Fairly Trained. OpenAI, de son côté, prépare discrètement son propre outil de génération musicale pour ChatGPT, avec des étudiants de la Juilliard School de New York chargés d’annoter des partitions pour entraîner le modèle. Et Deezer, côté plateformes de diffusion, a pris les devants en signalant que 50 000 morceaux entièrement générés par IA sont déjà uploadés chaque jour sur son service.
Google DeepMind, un acteur de longue date dans la musique IA
Google n’arrive pas en terrain inconnu. Dès janvier 2023, les équipes de DeepMind publiaient MusicLM, un modèle de génération musicale à partir de descriptions textuelles qui avait suscité un vif intérêt dans la communauté de recherche. Le modèle a ensuite été rendu accessible au public via MusicFX dans l’AI Test Kitchen de Google. En décembre 2023, DeepMind franchissait un cap avec le lancement de Lyria, son premier modèle dédié à la génération musicale haute-fidélité, accompagné de l’expérimentation Dream Track sur YouTube Shorts en collaboration avec des artistes comme Charlie Puth, T-Pain et Alec Benjamin. Lyria 2, sorti en 2024, avait apporté des améliorations significatives dans le traitement des instruments et la cohérence harmonique.
Avec Lyria 3, Google DeepMind entre dans une toute nouvelle dimension.
Lyria 3 dans Gemini : la musique en un prompt
Annoncée cette semaine, l’intégration de Lyria 3 dans l’application Gemini constitue un tournant stratégique. Le modèle est désormais directement accessible aux 750 millions d’utilisateurs actifs mensuels de l’application, selon le chiffre avancé par Sundar Pichai, PDG d’Alphabet, lors de la dernière communication financière du groupe.
Le principe est d’une simplicité redoutable : l’utilisateur décrit une idée, un genre, une ambiance ou même un souvenir, par exemple « un slow R&B comique sur une chaussette qui cherche son âme sœur », et Gemini génère en quelques secondes un morceau de 30 secondes complet, avec voix, paroles et instrumentation. Le modèle produit un son stéréo en 48 kHz, un niveau de fidélité qui le place au-dessus des simples boucles audio pour s’approcher d’une véritable composition structurée avec intro, couplets, refrain et transitions.
L’une des avancées majeures de cette troisième itération réside dans sa capacité multimodale. L’utilisateur peut aussi uploader une photo ou une vidéo et demander à Gemini de composer un morceau dont l’ambiance correspond au contenu visuel. Une photo de randonnée en forêt avec son chien pourra ainsi devenir un hymne champêtre avec des paroles adaptées à la scène. Le modèle Nano Banana de Google se charge parallèlement de générer automatiquement une pochette d’album pour chaque création.
« L’objectif de ces morceaux n’est pas de créer un chef-d’œuvre musical, mais plutôt de vous offrir un moyen ludique et unique de vous exprimer », précisent Joël Yawili, Senior Product Manager chez Gemini, et Myriam Hamed Torres, Senior Product Manager chez Google DeepMind, dans le billet de blog officiel accompagnant le lancement.
Trois améliorations clés par rapport aux modèles précédents
Lyria 3 marque une progression significative sur trois axes par rapport à ses prédécesseurs.
D’abord, la génération automatique de paroles : il n’est plus nécessaire de fournir ses propres lyrics, le modèle les compose à partir du prompt.
Ensuite, le contrôle créatif a été considérablement enrichi : style musical, type de voix, tempo et autres paramètres peuvent être ajustés pour affiner le résultat.
Enfin, la qualité musicale globale fait un bond en avant, avec des compositions plus réalistes et musicalement plus complexes que celles produites par Lyria 2.
Si un utilisateur mentionne le nom d’un artiste dans son prompt, Gemini n’en fera pas une copie. Le système traite cette indication comme une source d’inspiration stylistique large. Google précise que des filtres vérifient les productions générées par rapport aux contenus existants et que les utilisateurs peuvent signaler tout contenu susceptible de porter atteinte à des droits.
SynthID et vérification : la traçabilité au cœur du dispositif
Tous les morceaux générés dans Gemini embarquent le watermark SynthID, la signature numérique imperceptible développée par Google pour identifier les contenus créés par IA. Cette technologie, déjà déployée pour les images et les vidéos, est désormais étendue à l’audio. La marque reste détectable même après compression ou conversion de format.
Nouveauté notable : Gemini propose désormais un outil de vérification audio. Il est possible d’uploader un fichier musical dans l’application et de demander s’il a été généré par une IA Google. Le système vérifie alors la présence de SynthID et utilise son propre raisonnement pour fournir une réponse. Une fonctionnalité qui prend tout son sens à l’heure où Deezer estime que 97 % des auditeurs ne sont pas capables de distinguer un morceau créé par IA d’une production humaine.
YouTube Dream Track s’étend à l’international
En parallèle de l’intégration dans Gemini, Lyria 3 est également déployé dans Dream Track, l’outil de YouTube qui permet aux créateurs de générer des bandes-son personnalisées pour leurs Shorts. Jusqu’alors limité aux États-Unis, Dream Track s’ouvre désormais aux créateurs d’autres pays, élargissant considérablement la portée de l’IA musicale de Google dans l’écosystème créatif de YouTube.
Disponibilité et tarification
La fonctionnalité de génération musicale est disponible en bêta dans l’application Gemini pour tous les utilisateurs de 18 ans et plus, dans huit langues : anglais, allemand, espagnol, français, hindi, japonais, coréen et portugais. Le déploiement a déjà débuté sur l’app desktop, avec une extension progressive à l’application mobile dans les jours suivants. Les abonnés Google AI Plus, Pro et Ultra bénéficient de limites d’utilisation plus élevées, Google n’ayant toutefois pas précisé les quotas exacts pour les utilisateurs gratuits.
Par ailleurs, aucun abonnement ne permet aujourd’hui de s’affranchir de la vraie grande limite de Lyria 3 : les morceaux ne peuvent dépasser les 30 secondes ce qui est terriblement trop court pour bien des usages.
Google positionne clairement Lyria 3 comme un outil d’expression créative personnelle plutôt que comme un concurrent des studios de production professionnels. Mais avec 750 millions d’utilisateurs potentiels, l’intégration directe dans un assistant IA grand public pourrait bien rapidement changer la donne si Google lève la limite des 30 secondes. L’IA ne remplacera pas les musiciens pas plus qu’elle ne remplace les artistes infographistes, mais elle permet à tout un chacun d’esquisser des idées musicales et de transformer des souvenirs en son partageable en quelques secondes. Et c’est déjà beaucoup… et assez bluffant, il faut bien le reconnaître.




puis