Une nouvelle percée majeure dans la technologie de génération vidéo par intelligence artificielle ! LTX Studio, filiale de Lightricks, a récemment lancé son nouveau modèle de génération vidéo open source LTX-Video13B. Grâce à ses 13 milliards de paramètres, sa vitesse de génération 30 fois supérieure à celle des modèles concurrents et sa technologie innovante de rendu multi-échelles, ce modèle est rapidement devenu le point de mire de l'industrie. Non seulement ce modèle fonctionne efficacement sur des cartes graphiques de niveau consommateur, mais il améliore également significativement la cohérence et les détails des vidéos, offrant aux créateurs un contrôle et une flexibilité sans précédent.
Avancées techniques : Le rendu multi-échelles redéfinit la génération vidéo
LTX-Video13B utilise une technologie unique de rendu multi-échelles, générant d'abord les mouvements et l'agencement de la scène à faible résolution, puis en ajoutant progressivement les détails. Cette méthode innovante améliore considérablement la vitesse de génération et la qualité de l'image. Cette technologie permet au modèle de générer des vidéos de haute qualité à une vitesse 30 fois supérieure à celle des modèles concurrents, avec une vidéo de 5 secondes générée en seulement 2 secondes, tout en fonctionnant fluidement sur des cartes graphiques de niveau consommateur comme la NVIDIA RTX4090. Comparé aux modèles traditionnels, il nécessite moins de mémoire, offrant ainsi une expérience de création plus efficace aux créateurs.
Le modèle repose sur l'architecture DiT (Diffusion Transformer), combinée à des optimisations avancées des noyaux et à un format de données bfloat16, pour améliorer davantage les performances. LTX-Video13B prend en charge la génération en temps réel à une résolution de 1216×704 et à 30 images par seconde, et convient à divers modes de génération tels que le texte vers vidéo, l'image vers vidéo et la vidéo vers vidéo, répondant ainsi à des besoins de création variés.
Fonctionnalités puissantes : Contrôle précis et créativité illimitée
LTX-Video13B se distingue par sa capacité à gérer la cohérence des actions, la structure des scènes et les relations des plans, permettant de générer des contenus vidéo logiques et riches en détails. Le modèle supporte le contrôle des images clés, le mouvement des personnages et des caméras, ainsi que la combinaison de plusieurs plans, offrant aux utilisateurs un contrôle fin de la création. Par exemple, les créateurs peuvent ajuster précisément les actions des personnages, les changements de scène ou les angles de caméra dans les vidéos grâce à des indications textuelles ou des images de référence, pour obtenir des effets visuels semblables à ceux d'un film.
De plus, LTX-Video13B permet d'étendre les vidéos jusqu'à 60 secondes et de remplacer le style ou les actions du contenu vidéo. Les utilisateurs peuvent allonger une vidéo existante jusqu'à 60 secondes ou la transformer en style animé. Cette flexibilité offre d'importantes perspectives d'application dans la production de courts métrages, la publicité et la création de contenus pour les réseaux sociaux.
Écosystème open source : Équiper les développeurs et les créateurs
En tant que modèle open source, LTX-Video13B est gratuit sur GitHub et Hugging Face, permettant aux développeurs et créateurs de le modifier et de le personnaliser librement. Lightricks propose également l'outil LTX-Video-Trainer, qui permet une mise en œuvre complète des modèles de 2B et 13B, ainsi qu'une formation LoRA (adaptation de rang inférieur), facilitant ainsi le développement de modèles de contrôle personnalisés, comme la profondeur, la posture ou la détection des contours. Le modèle est compatible avec les flux de travail ComfyUI, et le nœud Looping Sampler nouvellement ajouté permet de générer des vidéos de longueur arbitraire, assurant ainsi la cohérence du mouvement.
Pour réduire encore davantage les barrières d'utilisation, Lightricks a publié une série d'outils complémentaires, notamment une version quantifiée à 8 bits (ltxv-13b-fp8) et l'IC-LoRA Detailer, optimisant ainsi les performances sur les appareils à faible mémoire. Le modèle est gratuit pour les entreprises débutantes et les organisations dont le chiffre d'affaires annuel est inférieur à 10 millions de dollars, illustrant l'engagement de Lightricks en faveur de la démocratisation de l'IA.
Un nouveau jalon dans la génération vidéo
AIbase estime que le lancement de LTX-Video13B marque une nouvelle étape pour la technologie de génération vidéo open source. Sa technologie de rendu multi-échelles et son optimisation pour les matériels de niveau consommateur ont brisé les contraintes imposées par les équipements performants traditionnels, offrant aux équipes de taille moyenne et aux créateurs individuels des outils professionnels de création. En combinant la collaboration de la communauté open source, LTX-Video13B devrait pousser davantage l'innovation dans la technologie de génération vidéo, avec des applications étendues dans les domaines du cinéma, des jeux, de la publicité et de l'éducation.
Actuellement, LTX-Video13B est intégré à la plateforme LTX Studio, et les utilisateurs peuvent obtenir le modèle et les documents via le site officiel (https://ltx.studio) ou GitHub (https://github.com/Lightricks/LTX-Video). Lightricks prévoit également d'améliorer continuellement le modèle, en ajoutant davantage de types de contrôle et de fonctionnalités multimodales, pour offrir aux créateurs des outils plus puissants.
Perspective future : Ouvrir une nouvelle ère de création vidéo par IA