Dans l'industrie de la mode moderne, l'essayage virtuel vidéo (Video Virtual Try-On, VVT) est devenu une composante essentielle de l'expérience utilisateur. Cette technologie vise à simuler l'interaction naturelle entre les vêtements et les mouvements du corps dans une vidéo, afin de montrer l'effet réel des vêtements en situation dynamique. Cependant, les méthodes actuelles de VVT rencontrent encore plusieurs défis, tels que la cohérence spatio-temporelle et la préservation du contenu vestimentaire.
Pour résoudre ces problèmes, les chercheurs ont proposé MagicTryOn, un cadre d'essayage virtuel basé sur un grand modèle de diffusion transformer (Diffusion Transformer). Contrairement aux architectures traditionnelles U-Net, MagicTryOn repose sur le modèle vidéo Wan2.1 et utilise un transformateur de diffusion qui modélise la cohérence spatio-temporelle vidéo grâce à une mécanique d'attention complète. Cette conception innovante permet au modèle de capturer plus efficacement des relations structurelles complexes et une cohérence dynamique.
Dans le cadre de MagicTryOn, les chercheurs ont introduit une stratégie d'adaptation grossière à fine pour la préservation du vêtement. À l'étape grossière, le modèle intègre des marqueurs de vêtement lors de l'intégration, tandis qu'à l'étape fine, il combine diverses informations liées aux vêtements, comme la sémantique, le textile et les contours, renforçant ainsi l'expression des détails du vêtement pendant la phase de suppression du bruit. De plus, l'équipe de recherche a également proposé une fonction de perte basée sur un masque pour optimiser davantage la naturalité de la région vestimentaire.
Pour valider l'efficacité de MagicTryOn, les chercheurs ont mené de vastes expériences sur plusieurs jeux de données d'essai virtuel pour images et vidéos. Les résultats montrent que cette méthode surpasse les technologies existantes les plus avancées dans une évaluation globale et peut bien se généraliser aux scénarios réels.
En termes d'applications spécifiques, MagicTryOn se distingue particulièrement dans les scénarios impliquant des mouvements importants, comme dans les vidéos de danse. Ces scénarios exigent non seulement la cohérence vestimentaire, mais aussi la continuité spatio-temporelle. Grâce à deux vidéos de danse sélectionnées sur le site Pexels, les chercheurs ont réussi à évaluer efficacement la performance de MagicTryOn dans des situations de mouvement important.
MagicTryOn représente une avancée significative dans le domaine de l'essayage virtuel, combinant des techniques d'apprentissage profond avancées avec une conception de modèle innovante, montrant ainsi son immense potentiel dans l'industrie de la mode.
Projet : https://vivocameraresearch.github.io/magictryon/
Points clés :
🌟 MagicTryOn utilise un transformateur de diffusion, améliorant la cohérence spatio-temporelle de l'essayage vidéo.
👗 Introduit une stratégie d'adaptation grossière à fine pour renforcer la représentation des détails vestimentaires.
🎥 Performe exceptionnellement bien dans les scénarios de grands mouvements, montrant une interaction naturelle entre les vêtements et les mouvements corporels.