Rhymes AI hat kürzlich sein revolutionäres Text-zu-Bild-zu-Video-Generierungsmodell Allegro-TI2V veröffentlicht. Diese bahnbrechende Technologie eröffnet völlig neue Möglichkeiten für die digitale Inhaltserstellung. Als jüngster Fortschritt im Bereich der generativen KI bietet Allegro-TI2V Kreativen beispiellose Werkzeuge für visuelles Storytelling und unterstreicht das enorme Potenzial von KI im Kreativbereich.

QQ20241129-143110.png

Allegro-TI2V zeichnet sich durch hervorragende technische Spezifikationen aus: Es unterstützt eine Kontextlänge von bis zu 79.2K, was 88 Video-Frames entspricht. Die Ausgabe-Auflösung beträgt 720×1280 Pixel, die Videogenerierungsgeschwindigkeit liegt bei 15 Bildern pro Sekunde (fps). Benutzer können die Geschwindigkeit auch auf 30 fps interpolieren, um den Anforderungen verschiedener Anwendungsszenarien gerecht zu werden. Die Architektur des Modells ist sehr komplex und umfasst ein VideoVAE-Modell mit 175 Millionen Parametern und ein VideoDiT-Modell mit 2,8 Milliarden Parametern. Dies ermöglicht eine präzise Erfassung der vom Benutzer eingegebenen Textaufforderungen und des Wesens des Ausgangsbildes. Darüber hinaus unterstützt Allegro-TI2V verschiedene Genauigkeitsmodi (FP32, BF16, FP16). Im BF16-Modus benötigt die Videogenerierung nur 9,3 GB GPU-Speicher, was den Hardwarebedarf erheblich reduziert.

Die Innovation von Allegro-TI2V liegt in der Einführung zweier neuer Generierungsmodi: Fortsetzungs-Videogenerierung: Erstellung kontinuierlicher Videoinhalte basierend auf Textaufforderungen und einem Startbild. Dieser Modus hilft Schöpfern, Videos zu erstellen, die dem festgelegten Thema und Stil entsprechen. Zwischen-Videogenerierung: Generierung natürlicher Übergänge zwischen den Anfangs- und Endbildern eines gegebenen Videos, wodurch die traditionellen zeitlichen und räumlichen Beschränkungen der Videobearbeitung aufgehoben werden.

Diese innovativen Modi ermöglichen es Allegro-TI2V, Schöpfern effizientere und flexiblere Möglichkeiten zur Videoproduktion zu bieten und die Effizienz und Qualität der Kreation deutlich zu steigern.

Rhymes AI hat Allegro-TI2V unter der Apache2.0-Lizenz veröffentlicht, um Forschern, Entwicklern und Inhaltserstellern einen einfacheren Zugriff auf und die Nutzung dieser Technologie zu ermöglichen. Benutzer benötigen lediglich Python 3.10+, PyTorch 2.4+ und CUDA 12.4+, um die Technologie schnell und einfach nutzen zu können.

QQ20241129-143210.png

Die Anwendungsmöglichkeiten von Allegro-TI2V sind sehr vielseitig und reichen von der Filmproduktion und Spieleentwicklung bis hin zu digitaler Kunst und kreativen Prototypen. Laut Angaben der Entwickler kann eine einzelne H100-GPU ein 6-Sekunden-Video in etwa 20 Minuten generieren. Mit einer Konfiguration aus 8 H100-GPUs verkürzt sich die Generierungszeit auf 3 Minuten, was die Effizienz der Videoproduktion deutlich erhöht.

Nutzungsadresse: https://huggingface.co/rhymes-ai/Allegro-TI2V

Produktseite: https://rhymes.ai/blog-details/allegro-advanced-video-generation-model