Le groupe PICO-MR de ByteDance a officiellement ouvert le code source d'**EX-4D**, un cadre révolutionnaire pour la génération de vidéos 4D. Outil capable de générer des séquences vidéo 4D (espace 3D + dimension temporelle) de haute qualité à partir d'une seule perspective (vidéo monovue), marquant une nouvelle étape dans la technologie de génération vidéo. EX-4D dépasse non seulement les méthodes open source existantes sur les indicateurs techniques, mais offre également un soutien clé pour la création de contenus 3D immersifs et la construction de « modèles du monde ». Voici une analyse approfondie de cette technologie avancée par AIbase.
**Avancées techniques : De la vidéo monovue au point de vue libre**
Les technologies traditionnelles de génération vidéo rencontrent deux défis majeurs lors de la génération de plusieurs points de vue : d'une part, il faut des caméras et ensembles de données à plusieurs points de vue coûteux pour l'entraînement ; d'autre part, il est difficile de gérer les zones masquées, ce qui entraîne des problèmes de détails ou de logique de masquage dans les vidéos générées sous des angles extrêmes. EX-4D a résolu ces problèmes grâce à une **représentation de maillage clos en profondeur (DW-Mesh)** innovante et une architecture légère adaptée.
DW-Mesh est la technologie centrale d'EX-4D. Il construit une structure de maillage fermée complète pour enregistrer les faces visibles et invisibles dans la scène, permettant de traiter uniformément les scènes complexes sans supervision multivue. En combinant un modèle pré-entraîné de prédiction de profondeur, EX-4D projette les pixels d'une seule image dans l'espace 3D, formant ainsi des sommets de maillage et marquant précisément les zones de masquage en fonction des relations géométriques. Cette méthode assure que les vidéos générées conservent une cohérence physique et une intégrité des détails même sous des angles extrêmes (par exemple ±90°).
En outre, EX-4D introduit deux stratégies de génération de masques simulés — **le masque de rendu** et **le masque de suivi** — qui utilisent le déplacement de perspective et la cohérence entre les images pour résoudre le problème de rareté des données d'entraînement multivue. Ces stratégies permettent à EX-4D de « reconstruire » les données à tous les points de vue uniquement à partir d'une vidéo monovue, réduisant considérablement les coûts de collecte de données.
**Performance : Supériorité globale sur les indicateurs**
EX-4D a démontré une excellente performance dans les tests de performance. Sur un ensemble de données comprenant 150 vidéos en ligne, EX-4D dépasse largement les méthodes open source existantes sur les indicateurs standards de l'industrie tels que le **FID (distance de Fréchet)**, le **FVD (distance vidéo de Fréchet)** et le **VBench**. En particulier, dans les tâches de génération sous des angles extrêmes (comme proches de 90°), l'avantage de performance d'EX-4D est particulièrement évident, car les vidéos générées présentent plus de réalisme dans les détails des objets et la logique de masquage.
Dans une évaluation subjective menée auprès de 50 volontaires, 70,7 % des participants ont estimé que la cohérence physique d'EX-4D sous des angles extrêmes surpassait largement les autres méthodes open source. Cela montre qu'EX-4D dépasse non seulement les indicateurs techniques, mais est également fortement reconnu par les utilisateurs dans les applications pratiques.
ByteDance a entièrement ouvert le code source d'EX-4D, avec le code et les documents associés publiés sur GitHub, offrant aux développeurs du monde entier un accès gratuit. Cette initiative illustre non seulement la contribution de ByteDance à la communauté open source, mais établit également une base pour l'innovation dans les domaines tels que les films 3D immersifs, la réalité virtuelle (VR) et la réalité augmentée (AR).
EX-4D repose sur le modèle pré-entraîné WAN-2.1, combiné à une architecture **LoRA-based Adapter**, tout en maintenant l'efficacité de calcul, et intègre des informations géométriques préalables DW-Mesh, garantissant ainsi la cohérence géométrique et la continuité entre les cadres des vidéos générées. Ce design léger permet à EX-4D de fonctionner efficacement même dans des environnements à ressources limitées, adapté à un large éventail de scénarios de développement.
La publication d'EX-4D est considérée comme un progrès important pour la construction d'un « modèle du monde ». Contrairement aux modèles de génération vidéo traditionnels, EX-4D permet aux utilisateurs d'explorer librement le contenu vidéo, similaire à la navigation entre des univers parallèles. Cette technologie de génération 4D contrôlable par caméra offre des possibilités infinies pour la création de contenus immersifs, telles que les films 3D interactifs, les voyages virtuels et le développement de jeux.
Le responsable du groupe PICO-MR de ByteDance a déclaré que EX-4D est le fruit de plusieurs années de recherche du groupe dans les domaines de la reconstruction 3D et de la génération de scènes 4D. À l'avenir, le groupe continuera d'optimiser les performances du modèle et d'explorer des scénarios d'application plus larges. AIbase estime que l'ouverture de EX-4D accélérera la diffusion de la technologie de génération vidéo par IA et favorisera la mise en œuvre des IA multimodales dans l'industrie créative.
Site web : https://github.com/tau-yihouxiang/EX-4D