En juillet 2025, Bilibili (B站) a annoncé une mise à jour majeure de son modèle d'animation vidéo open source AniSora, avec la publication officielle de AniSora V3. En tant que partie du projet Index-AniSora, la version V3 a amélioré davantage la qualité de génération, la fluidité des mouvements et la diversité des styles par rapport à la version précédente, offrant ainsi un outil plus puissant aux créateurs de contenus animés, manga et VTuber. AIbase décompose en profondeur les avancées techniques, les applications et l'impact industriel d'AniSora V3.

image.png

Mises à jour techniques : qualité accrue et contrôle précis

AniSora V3 repose sur les modèles CogVideoX-5B et Wan2.1-14B, développés précédemment par Bilibili et ouverts au public, combinant le cadre de renforcement par apprentissage et feedback humain (RLHF) pour améliorer significativement la qualité visuelle et la cohérence des mouvements des vidéos générées. Il permet de générer en un seul clic des séquences de vidéos animées dans plusieurs styles, y compris des extraits de séries animées, des animations nationales, des adaptations de mangas et des contenus VTuber.

Les principales améliorations incluent :

  • Optimisation du module de masque spatio-temporel (Spatiotemporal Mask Module) : La version V3 renforce sa capacité de contrôle spatio-temporel, supportant des tâches d'animation plus complexes, comme le contrôle précis des expressions faciales des personnages, les déplacements dynamiques de caméra et la génération guidée par des images partielles. Par exemple, une instruction telle que « cinq filles dansent lorsque la caméra zoom sur elles, levant leur main gauche jusqu'à leur tête puis la descendant jusqu'à leurs genoux » peut générer une animation de danse fluide, synchronisée naturellement avec les actions des personnages.
  • Élargissement du jeu de données : La V3 continue de s'appuyer sur plus de 10 millions de fragments de vidéos animées de haute qualité (extraits de 1 million de vidéos originales) pour l'entraînement, avec une nouvelle ligne de traitement de nettoyage des données, garantissant ainsi une cohérence stylistique et une richesse des détails des contenus générés.
  • Optimisation matérielle : La V3 intègre désormais une prise en charge native du NPU Ascend910B de Huawei, entièrement entraîné sur des puces chinoises, augmentant la vitesse de calcul d'environ 20 %, générant ainsi une vidéo HD de 4 secondes en seulement 2 à 3 minutes.
  • Apprentissage multi-tâche : La V3 renforce ses capacités de traitement multi-tâche, supportant la génération de vidéos à partir d'une seule image, l'interpolation des images clés, ainsi que la synchronisation labiale, particulièrement adaptée à la création de contenus de mangas et de VTuber.

Dans les derniers tests standardisés, AniSora V3 a atteint des niveaux de pointe de l'industrie (SOTA) en termes de cohérence des personnages et de fluidité des mouvements sur VBench et lors de tests subjectifs doubles aveugles, notamment pour des mouvements complexes (comme des actions d'anime exagérées allant à l'encontre des lois physiques).

Écosystème open source : développement communautaire et transparent

Le code complet pour l'entraînement et le raisonnement d'AniSora V3 a été mis à jour sur GitHub le 2 juillet 2025. Les développeurs peuvent accéder aux poids du modèle et au jeu de données d'évaluation comprenant 948 vidéos animées via Hugging Face. Bilibili souligne qu'AniSora est « un cadeau open source pour le monde de l'animation », encourageant la collaboration communautaire pour optimiser le modèle. Les utilisateurs doivent remplir un formulaire d'inscription et l'envoyer à une adresse e-mail spécifique (par exemple, yangsiqian@bilibili.com) pour obtenir les poids de la version V2.0 et l'accès au jeu de données complet.

La V3 introduit également le premier cadre de RLHF dédié à la génération de vidéos animées, permettant de raffiner le modèle grâce à des outils tels qu'AnimeReward et GAPO, assurant ainsi une sortie plus conforme aux goûts humains et aux besoins stylistiques des animations. Les développeurs de la communauté ont déjà commencé à créer des plugins personnalisés basés sur la V3, comme l'amélioration de l'effet de génération d'un style animé spécifique (comme le style Ghibli).

Applications : de la créativité au commercial

AniSora V3 prend en charge plusieurs styles d'animations, notamment les animations japonaises, les œuvres d'animation nationale originale, les adaptations de mangas, les contenus VTuber et les animations satiriques (gouchu), couvrant 90 % des scénarios d'animations vidéo. Des applications spécifiques incluent :

  • Conversion d'image unique en vidéo : L'utilisateur télécharge une image animée de haute qualité, accompagnée d'une indication textuelle (par exemple, « le personnage agite la main dans une voiture qui avance, les cheveux se balançant avec le vent »), ce qui génère une vidéo dynamique, conservant les détails et le style du personnage.
  • Adaptation de manga : Génération d'animations à partir de cadres de manga, avec synchronisation labiale et mouvements, idéal pour produire rapidement des bandes-annonces ou des courts métrages.
  • VTuber et jeux : Prise en charge de la génération en temps réel d'animations de personnages, aidant les créateurs indépendants et les développeurs de jeux à tester rapidement les actions des personnages.
  • Sortie en haute résolution : Les vidéos générées supportent une résolution allant jusqu'à 1080p, assurant une présentation professionnelle sur les plateformes de médias sociaux et de diffusion en continu.

Les tests d'AIbase montrent que la V3 réduit d'environ 15 % les problèmes de pseudo-images lors de la génération de scènes complexes (comme l'interaction de plusieurs personnages ou des arrière-plans dynamiques), avec un temps moyen de génération de 2,5 minutes (pour une vidéo de 4 secondes).

Lancement d'AniSora V3 réduit davantage les barrières à la création d'animations, permettant aux créateurs indépendants et aux petites équipes de réaliser des productions animées de haute qualité à faible coût. Comparé aux modèles généraux de génération de vidéos tels que Sora d'OpenAI ou Kling, AniSora V3 se concentre sur le domaine des animations, comblant ainsi un vide sur le marché. Par rapport à EX-4D de ByteDance, AniSora V3 se concentre davantage sur les styles d'animations 2D/2,5D plutôt que sur la génération de perspectives 4D multiples, illustrant ainsi une voie technologique différente.

Projet : https://t.co/I3HPKPvsBV