Alibaba, géant chinois du numérique et de l’infrastructure cloud, poursuit sa stratégie IA « full stack » articulée autour de ses modèles Qwen (LLM) et Wan (génération visuelle/vidéo). Le groupe lance Wan2.6, un modèle concurrent de Veo3 et Sora 2 qui promet d’abaisser la barrière d’entrée de la vidéo IA en combinant génération d’images, de son et de plans successifs…
Alibaba Cloud confirme une nouvelle fois que la Chine, malgré les bâtons que les USA ne cessent de lui mettre dans les roues, n’a pas de retard flagrant en matière de modèles IA génératifs. Y compris sur les cas d’usage les plus consommateurs de puissance GPU comme la génération vidéo ! Et alors que les Américains s’affrontent à grands coups de technologies propriétaires, Alibaba Cloud, à l’instar de bien des acteurs chinois (DeepSeek, Z.ai GLM, Moonshot/Kimi, …) et européens (Mistral AI), joue la carte de l’open-source et des modèles en open-weight avec ses modèles Qwen et Wan.
Le groupe chinois annonce en cette fin d’année sa nouvelle série Wan2.6, une nouvelle génération de modèles de création visuelle. Avec un argument marketing central : l’utilisateur peut aisément se mettre en scène lui-même dans une vidéo générée par IA, en conservant apparence et voix, via un mécanisme dit de “reference-to-video”.
Dit autrement, le modèle se distingue par sa capacité à produire des séquences longues où les visages, les expressions et les voix restent cohérents d’une scène à l’autre, même lorsque le décor, l’angle de caméra ou l’action évoluent. Cette continuité, rendue possible par une technologie baptisée R2V, place Alibaba parmi les premiers acteurs en Chine capables de maintenir une identité visuelle et vocale stable sur plusieurs plans successifs, un défi technique que peu de modèles avaient réussi à relever jusque‑là.
Un modèle de référence qui réplique un personnage, y compris la voix
La gamme de modèles Wan2.6 s’enrichit en effet d’un nouvel élément dénommé Wan2.6-R2V. Son principe de fonctionnement est assez simple : l’utilisateur charge une courte vidéo de référence d’un personnage, puis demande par texte de générer de nouvelles scènes avec la même identité visuelle et sonore. Alibaba affirme que le modèle peut prendre en compte une personne, un animal ou un objet, et gérer plusieurs sujets dans une même scène.
Alibaba présente Wan2.6-R2V comme « le premier modèle chinois de reference-to-video » capable de maintenir une cohérence audio et visuelle en réinsérant un sujet dans des scènes générées. Une revendication qui doit être lue comme un marqueur de positionnement technologique autant que géopolitique.
Au-delà de R2V, Alibaba indique avoir mis à jour ses autres briques, « text-to-video » Wan2.6-T2V et « image-to-video » Wan2.6-I2V, ainsi que deux modèles orientés image Wan2.6-image et Wan2.6-T2I.
Le vrai sujet : la cohérence et la chaîne de production
La promesse de “storytelling multi-plans” répond à un point de douleur bien connu des équipes créatives qui s’appuient sur l’IA générative pour créer leurs vidéos : conserver une continuité d’un plan à l’autre, notamment quand un personnage parle, change d’angle, ou interagit avec d’autres. Alibaba estime avoir résolu le problème de cohérence des séquences avec sa technologie R2V et affirme avoir aussi singulièrement amélioré la synchronisation audio-vidéo et les capacités audio-vers-vidéo, avec des scènes plus réalistes et des effets sonores plus riches.
Autre limite pratique régulièrement pointée par les créatifs : la durée. Alibaba annonce des sorties vidéo allant jusqu’à 15 secondes, ce qui reste court mais correspond à de nombreux formats sociaux et à des séquences “utilisables” dans un montage. Et surtout ce temps est très concurrentiel : Sora 2 génère des séquences de 10 à 15 secondes (voire 25 secondes dans sa version « pro » à 200$/mois mais peut aussi assembler des séquences jusqu’à une durée totale de 60 secondes) et Veo 3.1 à des séquences de 8 secondes (à moins d’exploiter son mécanisme d’extension par incréments qui porte le total à 148 secondes).
Evidemment pour les DSI, l’enjeu du moment est d’industrialiser ces modèles pour les intégrer dans des workflows internes, communication, formation, e-learning, marketing produit, supports de vente. La documentation publiée par Alibaba sur le fine-tuning des modèles vidéo montre d’ailleurs une ambition d’usage plus avancé que le simple “essai créatif”, avec l’idée de spécialiser un modèle pour obtenir des actions, effets ou styles plus spécifiques.
Néanmoins, l’arrivée de R2V soulève par la même occasion des questions nouvelles comme « Qui a le droit de charger une vidéo de référence d’un collaborateur ou d’un acteur, avec quelle autorisation, pendant combien de temps, et avec quelles garanties de non réutilisation ? » sans oublier les risques de deepfake interne, les exigences de traçabilité, et la gestion des actifs numériques, prompts, références, exports.
Un modèle pas encore open source
Reste la vraie question qui fâche et sur laquelle le groupe est resté pour le moins évasif. Si les modèles Wan2.1 et Wan2.2 ont bien été publiés en « open weight » sous licence Apache 2.0, ce n’est pas encore le cas de Wan2.6. Pour l’instant, Alibaba met Wan2.6 à disposition via Model Studio, sa plateforme de développement IA et annonce une prochaine intégration dans Qwen App.
Mais pour l’instant, les modèles n’ont pas été publiés sur des repos GitHub ou sur Hugging Face. Alibaba Cloud semble décider à se garder au moins momentanément l’exclusivité de ces nouveaux modèles ! Est-ce les prémisses d’un changement stratégique majeur ou simplement un retard ordonné par une certaine prudence face aux potentiels risques de modèles aussi évolués ? L’année 2026 nous éclairera probablement à ce sujet.
Reste qu’en attendant d’en savoir plus, il faudra bien passer par Alibaba Cloud pour exploiter le potentiel de la famille Wan2.6. En région internationale, Alibaba affiche pour Wan2.6-T2V et Wan2.6-I2V des prix de l’ordre de 0,10 dollar par seconde en 720p et 0,15 dollar par seconde en 1080p, avec un quota gratuit indiqué à l’activation selon les cas. Dit autrement, une vidéo de 15 secondes peut rapidement devenir un coût récurrent si l’on multiplie les itérations, ce qui pousse naturellement à l’optimisation des prompts, à des garde-fous de consommation, et à une stratégie de cache et de réutilisation.
Le lancement intervient dans une course mondiale où les acteurs américains (OpenAI, Google, Runway, Meta) et chinois (ByteDance) poussent des modèles vidéo de plus en plus longs, plus stables, et plus contrôlables. Sur le marché, les attentes se concentrent désormais sur la persistance des personnages, la gestion du dialogue, et la réduction du “bruit” visuel d’une séquence à l’autre. Alibaba tente de répondre à cette demande avec une approche orientée référence, ce qui le rapproche de la manière dont certaines plateformes créatives cherchent à verrouiller une identité de personnage pour des séries de contenus.





puis