Lightricks hat die Erweiterung seines KI-Videoerzeugungsmodells LTX-Video (LTXV) angekündigt, das nun die Erstellung von Videos mit einer Länge von bis zu 60 Sekunden unterstützt. Dieser Meilenstein bricht die übliche Branchenbeschränkung von 8 Sekunden und macht LTXV zum ersten Open-Source-Modell, das Echtzeit-Streaming von langen KI-Videos ermöglicht.

image.png

60-Sekunden-Videoerzeugung: Der Sprung von Kurzfilmen zu langen Geschichten

Die neueste Version von LTXV erreicht durch die Einführung einer autoregressiven Streaming-Architektur die Erzeugung von hochwertigen Videos aus einem einzigen Bild über eine Dauer von 60 Sekunden. Im Vergleich zu traditionellen Modellen kann LTXV Videos in Echtzeit streamen, wobei der Inhalt der ersten Sekunde fast sofort erscheint und anschließend kontinuierlich entwickelt wird. Diese Technologie ermöglicht nicht nur längere Videoerzeugung, sondern sorgt auch für eine glatte und zusammenhängende Bewegung sowie Erzählstruktur, was Kreativen einen bisher unerreichten Raum für narrative Ausdrucksformen bietet.

Benutzer können Textvorgaben eingeben und ein Ausgangsbild hinzufügen, um Videos mit Auflösungen von 768x512 oder höher (z. B. 1216x704) und einer Bildwiederholungsrate von 24FPS zu erzeugen. Die multiskalare Rendertechnik von LTXV erfasst zunächst grobe Bewegungen in niedriger Auflösung und optimiert dann schrittweise die Details, um den besten Balancepunkt zwischen Geschwindigkeit und Qualität zu erreichen.

Echtzeit-Kontrolle und kreative Flexibilität

Die Aktualisierung des LTXV-Modells bringt eine Funktion zur dynamischen Szenensteuerung mit sich, die es Benutzern ermöglicht, während der Videoerzeugung Elemente wie Haltung, Tiefe oder Stil in Echtzeit anzupassen. Mit der IC-LoRA-Technologie von Lightricks können Kreative kontinuierlich Kontrollsignale (wie Haltungsdetektion oder Kantenanalyse) anwenden, um die Details des Videos präzise zu steuern. Diese Fähigkeit, "während der Erzeugung zu regie", verwandelt LTXV von einem einfachen Prompt-Generierungstool in eine echte Plattform für lange Geschichten.

Darüber hinaus unterstützt LTXV verschiedene Erzeugungsmodi, darunter Text-zu-Video, Bild-zu-Video, Keyframe-Animation und Video-Erweiterung. Benutzer können sogar mehrere Bilder oder kurze Videosegmente kombinieren, um komplexe Videos zu erstellen. Diese Flexibilität macht es geeignet für eine breite Palette von Anwendungen, von sozialen Medien-Shortvideos bis hin zu interaktiven Bildungsmedien und sogar Echtzeit-AR-Visuals.

Effizienz und Open Source: Kreativitätsförderung für alle

Ein weiterer Vorteil von LTXV ist seine Effizienz und Kompatibilität mit Hardware. Dank der Architektur mit 13 Milliarden Parametern und Optimierungen im bfloat16-Format kann LTXV auf Verbraucher-GPUs (wie NVIDIA RTX4090 oder 5090) mit sehr geringem VRAM-Bedarf (mindestens 8 GB) laufen und benötigt nur wenige Sekunden, um 60 Sekunden Video zu generieren. Zum Beispiel kann LTXV auf einer H100GPU innerhalb von 4 Sekunden ein 5-Sekunden-Video erzeugen, schneller als die Echtzeitwiedergabe. Im Vergleich dazu benötigen Konkurrenzmodelle wie Sora von OpenAI oft mehrere GPUs, was hohe Rechenkosten verursacht.

Als Open-Source-Modell sind die Codebasis und Gewichte von LTXV kostenlos auf GitHub und Hugging Face verfügbar und unterliegen der LTXV Open Weights License, die akademische Forschung und Community-Entwicklung unterstützt. Lightricks hat auch Tools wie LTX-Video-Trainer und ComfyUI-Integrationsworkflow veröffentlicht, um die Zugänglichkeit zu verbessern.

Branchenwirkung und Zukunftsaussichten

Die aktuelle Aktualisierung von Lightricks hebt die KI-Videoerzeugung auf ein neues Niveau. Die Fähigkeit, 60-Sekunden-Videos zu erzeugen, bietet nicht nur unabhängigen Kreativen, Marketingteams und Spielentwicklern die Möglichkeit, langfristige Inhalte schnell zu erstellen, sondern legt auch den Grundstein für reale interaktive Anwendungen wie dynamische AR-Visuals oder spielgesteuerte Cutscenes in Spielen.

Feedback von Social-Media-Nutzern zeigt, dass sie die Geschwindigkeit und Qualität von LTXV loben. Ein Nutzer etwa berichtet, dass das Erstellen eines 768x512-Videos auf einer RTX4080 nur 45 Sekunden dauert, und die Qualität von 60-Sekunden-Videos beeindruckt ebenfalls, obwohl einige Nutzer erwähnen, dass der Workflow noch optimiert werden muss.

Doch die Einschränkung für nicht kommerzielle Nutzung (nur für akademische und Forschungszwecke) könnte für einige kommerzielle Künstler eine Herausforderung darstellen. Lightricks gab bekannt, dass eine kommerzielle Version von LTXV mit Unterstützung für 60-Sekunden-Videos in ihrer Plattform LTX Studio erscheinen wird, um die Anwendungsfelder weiter zu erweitern.

AIbase ist der Meinung, dass die Aktualisierung von LTXV die Möglichkeiten der KI-Videoerstellung neu definiert. Seine Open-Source-Strategie und Effizienz werden die Branche beschleunigen. Zukünftig, mit weiteren Verbesserungen des Modells, könnte LTXV eine wichtige Rolle in der professionellen Filmproduktion und Echtzeit-Inhaltsgenerierung spielen.