Récemment, dans le domaine de la génération de vidéos par intelligence artificielle, ByteDance (la société mère de TikTok) a discrètement lancé un nouveau modèle appelé Seedance1.0. Ce modèle dépasse déjà Veo3 de Google, qui vient tout juste d'être lancé. Veo3 a attiré l'attention grâce à sa synthèse audio et ses outils de qualité cinématographique, mais Seedance1.0 a surpassé les attentes avec une technologie impressionnante, se positionnant comme un leader dans la génération de vidéos.
Le papier de recherche sur Seedance1.0 détaille les innovations du modèle. L'équipe de ByteDance a décomposé les couches spatiales et temporelles en combinant des encodages multimodaux de localisation, permettant ainsi au modèle de traiter simultanément des tâches de génération vidéo à partir de texte ou d'image. Cette méthode supporte des transitions de scènes complexes et des narrations multi-caméras tout en maintenant une cohérence thématique.
La performance de Seedance1.0 repose également sur les pipelines de données puissants de ByteDance. L'équipe a soigneusement construit un grand ensemble de données multiformes, annoté en double langue avec des annotations riches en caractéristiques d'action et statiques, garantissant ainsi l'exactitude du contenu généré. En outre, ils ont utilisé une méthode novatrice d'apprentissage par renforcement combinée avec trois modèles de récompenses, mettant l'accent sur l'alignement fondamental, la qualité d'action et l'esthétique.
Lors des tests, Seedance1.0 excelle dans plusieurs dimensions par rapport à Veo3. Dans le benchmark SeedVideoBench développé en collaboration avec des réalisateurs de films, ce modèle obtient des scores plus élevés en suivant les prompts et en simulant une réalisté d'action. Pour la tâche de conversion image en vidéo, Seedance maintient une cohérence visuelle entre les cadres d'entrée, tandis que Veo3 présente parfois des changements de lumière et de texture dans certaines situations.
En termes de performances de déduction, Seedance1.0 se distingue également. Le modèle peut générer une vidéo en 1080p de cinq secondes en seulement 41,4 secondes, une vitesse bien supérieure aux concurrents comme Sora, Runway Gen-4 et Veo3. ByteDance a également indiqué qu'ils avaient accompli des progrès significatifs pour réduire les coûts et les délais, rapprochant ainsi l'application en temps réel de la génération vidéo.
Seedance1.0 est prévu pour être intégré à des plateformes comme DouBao et JiMeng en juin 2025, visant à améliorer considérablement les flux de travail professionnels et les tâches de création courantes. Bien que Veo3 soit remarquable pour avoir combiné des vidéos réelles avec des effets sonores environnementaux et des dialogues, Seedance1.0 se distingue par sa fidélité visuelle, sa stabilité des mouvements et sa continuité narrative, même si son aptitude auditive reste inférieure.
Mise en avant :
🌟 La sortie de Seedance1.0 dépasse Google Veo3, devenant un nouveau point de référence dans la technologie de génération vidéo.
⚙️ Le modèle réalise des transitions de scène complexes et des narrations multi-caméras grâce à des encodages multimodaux de localisation.
⚡ Seedance1.0 se distingue par sa rapidité de génération et sa cohérence visuelle, et devrait devenir un outil essentiel pour la création professionnelle en 2025.