Lightricks annonce une mise à jour majeure de son modèle d'IA de génération vidéo LTX-Video (LTXV), qui prend désormais en charge la génération de contenus vidéo allant jusqu'à 60 secondes. Cette avancée disruptive rompt avec la limite habituelle de 8 secondes du secteur, rendant LTXV le premier modèle open source capable de générer des vidéos AI longues en temps réel.

image.png

La génération de vidéos de 60 secondes : un saut vers les récits longs

La dernière version de LTXV, grâce à l'introduction d'une architecture de flux autoregressive, permet de générer des vidéos de haute qualité allant jusqu'à 60 secondes à partir d'une seule image. Contrairement aux modèles traditionnels qui produisent des vidéos courtes, LTXV peut transmettre en continu les vidéos pendant leur génération, affichant le contenu de la première seconde presque instantanément, puis construisant progressivement la scène. Cette technologie permet non seulement de générer des vidéos plus longues, mais aussi d'assurer une continuité fluide des actions et des récits, offrant aux créateurs un espace d'expression narratif inédit.

Les utilisateurs peuvent entrer des indications textuelles détaillées, combinées à une image initiale, pour générer des vidéos avec une résolution de 768x512 ou supérieure (par exemple, 1216x704) et une fréquence d'images de 24FPS. La technologie de rendu multi-échelles de LTXV capture d'abord les mouvements généraux à faible résolution, puis affine progressivement les détails, assurant ainsi un équilibre optimal entre vitesse et qualité.

Contrôle en temps réel et flexibilité de création

La mise à jour du modèle LTXV intègre une fonctionnalité de contrôle dynamique des scènes, permettant aux utilisateurs d'ajuster en temps réel des éléments tels que la posture, la profondeur ou le style pendant la génération de la vidéo. Grâce à la technologie IC-LoRA de Lightricks, les créateurs peuvent appliquer continuellement des signaux de contrôle (comme la détection de posture ou la détection de contours), permettant un contrôle précis des détails de la vidéo. Cette capacité « de réalisation pendant la génération » transforme LTXV d'un outil de génération basé sur des indications en une véritable plateforme de narration longue.

De plus, LTXV prend en charge plusieurs modes de génération, notamment texte vers vidéo, image vers vidéo, animation par images clés et extension de vidéo. Les utilisateurs peuvent même combiner plusieurs images ou extraits de vidéos courts comme conditions pour générer des contenus vidéo complexes. Cette flexibilité le rend adapté à un large éventail d'applications, allant des vidéos courtes pour les réseaux sociaux aux contenus éducatifs interactifs, voire aux effets visuels en réalité augmentée en temps réel.

Performance efficace et open source : soutenir une large communauté de créateurs

Un autre point fort de LTXV est sa performance et son amabilité envers le matériel. Grâce à une architecture de modèle de 13 milliards de paramètres et à une optimisation en précision bfloat16, LTXV peut fonctionner sur des cartes graphiques grand public (comme NVIDIA RTX4090 ou 5090) avec une consommation de VRAM extrêmement faible (minimum 8 Go), générant une vidéo de 60 secondes en quelques secondes seulement. Par exemple, sur une H100GPU, LTXV peut générer une vidéo de 5 secondes en 4 secondes, ce qui est plus rapide que le playback en temps réel. En comparaison, des modèles concurrents comme Sora d'OpenAI nécessitent généralement un cluster de plusieurs GPU, entraînant des coûts de calcul élevés.

En tant que modèle open source, le code et les poids de LTXV sont disponibles gratuitement sur GitHub et Hugging Face, sous licence LTXV Open Weights License, permettant des recherches académiques et des développements communautaires. Lightricks a également publié des outils complémentaires, comme LTX-Video-Trainer et des workflows intégrés à ComfyUI, réduisant davantage les barrières à l'utilisation.

Impact industriel et avenir prometteur

Cette mise à jour de Lightricks pousse la génération de vidéos AI vers un nouveau niveau. La capacité de générer des vidéos de 60 secondes offre non seulement aux créateurs indépendants, aux équipes de marketing et aux développeurs de jeux la possibilité de produire rapidement du contenu long, mais elle pose également les bases pour des applications interactives en temps réel, comme les effets visuels AR dynamiques ou les séquences de jeu pilotées par les joueurs.

Les retours sur les réseaux sociaux montrent que les utilisateurs s'enthousiasment pour la vitesse et la qualité de LTXV. Par exemple, certains utilisateurs ont affirmé qu'il fallait seulement 45 secondes pour générer une vidéo de 768x512 sur une RTX4080, et le résultat de la vidéo de 60 secondes est impressionnant, bien que certains mentionnent que les flux de travail doivent encore être optimisés.

Cependant, la restriction d'utilisation non commerciale de LTXV (réservée uniquement aux études académiques et aux recherches) pourrait poser un défi pour certains créateurs commerciaux. Lightricks a annoncé qu'elle lancera une version commerciale supportant les vidéos de 60 secondes dans sa plateforme phare LTX Studio, élargissant davantage les scénarios d'application.