Das PICO-MR-Team der ByteDance hat offiziell **EX-4D** als Open-Source-Tool freigegeben. Es handelt sich um einen revolutionären Rahmen für die Erstellung von 4D-Videos, der aus einem einzigen Blickwinkel (Monokularvideo) hochwertige 4D-Videoreihen (3D-Raum + Zeitdimension) generiert und somit einen neuen Meilenstein in der Videoerzeugungstechnologie markiert. EX-4D übertrifft nicht nur die bestehenden Open-Source-Methoden in technischen Kennzahlen, sondern bietet auch entscheidende Unterstützung für die Erstellung von immersiven 3D-Inhalten und „Weltmodellen“. Hier ist eine detaillierte Analyse dieser wegweisenden Technologie durch AIbase.
**Technologische Durchbrüche: Von Monokularvideos zu frei wählbaren Perspektiven**
Traditionelle Videoerzeugungstechnologien stehen bei der Generierung mehrerer Perspektiven vor zwei großen Herausforderungen: Zum einen benötigen sie teure Kameras mit mehreren Perspektiven und Datensätze zur Trainierung; zum anderen können sie verdeckte Bereiche schlecht behandeln, was zu Objektverschwinden oder Verzerrungen in extremen Perspektiven führt. EX-4D löst diese Probleme mit innovativen **Tiefen-Dichtemeshes (DW-Mesh)** und einer leichten Anpassungsarchitektur.
DW-Mesh ist die Kernkomponente von EX-4D. Es baut eine vollständig geschlossene Netzstruktur auf, um sichtbare und unsichtbare Flächen im Szenenraum zu protokollieren, ohne dass mehrere Perspektiven überwacht werden müssen. Mit einem vortrainierten Tiefenvorhersagemodell projiziert EX-4D ein Einzelbild in den 3D-Raum, um Netzwerkpunkte zu bilden, und markiert präzise verdeckte Bereiche basierend auf geometrischen Beziehungen. Diese Methode gewährleistet, dass die generierten Videos auch unter extremen Perspektiven (wie ±90°) physikalische Konsistenz und Detailgenauigkeit behalten.
Zudem führt EX-4D zwei Strategien zur Simulation von Maskengenerierung ein – **Rendering-Masken** und **Tracking-Masken** –, um das Problem der Seltenheit von Daten für mehrere Perspektiven zu lösen. Durch die Simulation von Perspektivverschiebungen und der Konsistenz zwischen Frames kann EX-4D sogar aus einem Monokularvideo „vorausdenken“ und alle Perspektivdaten rekonstruieren. Dies senkt die Kosten für die Datensammlung erheblich.
**Leistungsfähigkeit: Indikatoren sind führend**
EX-4D zeigte hervorragende Leistung in Leistungstests. Auf Basis eines Datensatzes mit 150 Netzwerkvideos übertraf EX-4D bestehende Open-Source-Methoden in Standardindikatoren wie **FID (Fréchet Distance)**, **FVD (Fréchet Video Distance)** und **VBench**. Besonders deutlich war die Leistungsüberlegenheit von EX-4D bei Extremperspektiven (z. B. nahe 90°), wo die generierten Videos realistischer in Bezug auf Objektdetails und Verdeckunglogik waren.
In einer subjektiven Bewertung mit 50 Freiwilligen sagten 70,7 % der Teilnehmer, dass EX-4D in Extremperspektiven die physische Konsistenz deutlich übertraf. Dies zeigt, dass EX-4D nicht nur in technischen Kennzahlen führend ist, sondern auch in praktischen Anwendungen hohe Anerkennung findet.
ByteDance hat EX-4D vollständig open source gestellt. Der Code und die zugehörigen Dokumentationen sind bereits auf GitHub veröffentlicht und bieten Entwicklern weltweit kostenlose Zugriffsmöglichkeiten. Dieser Schritt unterstreicht nicht nur den Beitrag von ByteDance an die Open-Source-Community, sondern legt auch den Grundstein für Innovationen in Bereichen wie immersiven 3D-Filmen, virtueller Realität (VR) und erweiterter Realität (AR).
EX-4D basiert auf dem vortrainierten WAN-2.1-Modell und kombiniert eine **LoRA-basierte Adapter-Architektur**, um gleichzeitig Recheneffizienz zu bewahren und geometrische Vorkenntnisse des DW-Meshs zu integrieren. So wird die geometrische Konsistenz und die Kohärenz zwischen Bildern gewährleistet. Diese leichtgewichtige Architektur ermöglicht es EX-4D, auch in ressourcenbeschränkten Umgebungen effizient zu arbeiten und ist daher für viele Entwicklungsanwendungen geeignet.
Die Veröffentlichung von EX-4D wird als wichtiger Fortschritt im Bau von „Weltmodellen“ angesehen. Im Vergleich zu traditionellen einseitigen Videogenerationsmodellen gibt EX-4D dem Nutzer die Möglichkeit, die Videoinhalte frei zu erkunden, ähnlich wie in einem „Parallelen Universum“, in dem man die Perspektive wechseln kann. Diese kamerakontrollierte 4D-Generierungstechnik eröffnet unendliche Möglichkeiten für immersive Inhaltsproduktion, beispielsweise interaktive 3D-Filme, virtuelle Reisen oder Spielentwicklung.
Der Leiter des PICO-MR-Teams von ByteDance sagte, dass EX-4D das Ergebnis jahrelanger Forschung des Teams im Bereich 3D-Rekonstruktion und 4D-Szenengenerierung sei. In Zukunft werde das Team die Modellleistung optimieren und weiterreichende Anwendungsbereiche erforschen. AIbase meint, dass die Open-Source-Veröffentlichung von EX-4D die Verbreitung der KI-Videoerzeugungstechnologie beschleunigen und die Implementierung von multimodalen KI-Systemen in der Kreativindustrie fördern wird.
Website: https://github.com/tau-yihouxiang/EX-4D