Haben Sie schon von dem unglaublich teuren OpenAI Sora gehört? Die Trainingskosten von mehreren Millionen Dollar machen es zum „Rolls-Royce“ der Videogenerierung. Jetzt kündigt Luojian Technology das Open-Source-Videogenerierungsmodell Open-Sora 2.0 an!

Mit nur 200.000 US-Dollar (entspricht dem Einsatz von 224 GPUs) wurde ein kommerziell einsetzbares großes Videogenerierungsmodell mit 11 Milliarden Parametern trainiert.

QQ_1741846201943.png

Leistung auf Augenhöhe mit „OpenAI Sora“

Trotz der geringen Kosten ist Open-Sora 2.0 alles andere als schwach. Es wagt den Vergleich mit Branchenführern wie HunyuanVideo und dem 30-Milliarden-Parameter-Modell Step-Video. Bei den autoritativen VBench-Tests und den Nutzerpräferenztests überzeugte Open-Sora 2.0 mit beeindruckenden Ergebnissen und erreichte in vielen wichtigen Kennzahlen die Leistung von Closed-Source-Modellen, deren Training Millionen von Dollar kostet.

Noch aufregender ist, dass sich die Leistungsdifferenz zwischen Open-Sora 2.0 und OpenAI Sora im VBench-Test von vorherigen 4,52 % auf nur noch 0,69 % reduziert hat! Das bedeutet praktisch eine vollständige Angleichung der Leistung!

Im VBench-Test erzielte Open-Sora 2.0 sogar einen höheren Score als Tencent's HunyuanVideo. Es zeigt sich, dass mit geringeren Kosten eine höhere Leistung erzielt werden kann – ein neuer Maßstab für Open-Source-Videogenerierungstechnologien!

In den Nutzerpräferenztests übertraf Open Sora in den drei wichtigen Dimensionen visuelle Darstellung, Textkonsistenz und Bewegungsdarstellung mindestens zwei Kennzahlen der Open-Source-SOTA-Modelle HunyuanVideo und kommerziellen Modelle wie Runway Gen-3Alpha.

QQ_1741846235912.png

Das Geheimnis der kostengünstigen Hochleistung

Sie fragen sich bestimmt, wie Open-Sora 2.0 mit so geringen Kosten eine so hohe Leistung erzielt? Dahinter stecken einige Geheimnisse. Zunächst basiert die Architektur von Open Sora auf dem Design von Open-Sora 1.2 und verwendet weiterhin einen 3D-Autoencoder und ein Flow-Matching-Trainingsframework. Zusätzlich wurde ein 3D-Voll-Aufmerksamkeitsmechanismus eingeführt, um die Qualität der Videogenerierung weiter zu verbessern.

Um die Kosten optimal zu senken, wurde Open-Sora 2.0 in mehreren Bereichen optimiert:

  • Strenge Datenauswahl, um qualitativ hochwertige Trainingsdaten zu gewährleisten und die Effizienz von Grund auf zu steigern.
  • Training mit niedriger Auflösung priorisiert, um Bewegungsinformationen effizient zu lernen und die Rechenkosten zu senken. Das Training mit hoher Auflösung ist um ein Vielfaches teurer als mit niedriger Auflösung!
  • Bild-zu-Video-Aufgaben priorisiert, um die Konvergenz des Modells zu beschleunigen und die Trainingskosten weiter zu senken. In der Inferenzphase kann auch Text-zu-Bild-zu-Video (T2I2V) verwendet werden, um feinere visuelle Effekte zu erzielen.
  • Eine effiziente parallele Trainingslösung wurde implementiert, die in Kombination mit ColossalAI und systemischen Optimierungen die Auslastung der Rechenressourcen deutlich verbessert. Diverse „High-Tech“-Funktionen wie effizientes sequentielles Parallelisieren und ZeroDP, fein granulare Gradienten-Checkpointing und automatische Wiederherstellungsmechanismen für das Training steigern die Trainingseffizienz erheblich.

Schätzungen zufolge betragen die Trainingskosten für Open-Source-Videomodelle mit über 10 Milliarden Parametern auf dem Markt oft über eine Million US-Dollar. Open Sora 2.0 senkt diese Kosten um das 5- bis 10-fache. Dies ist ein wahrer Segen für die Videogenerierung und ermöglicht es mehr Menschen, an der Entwicklung hochwertiger Videogenerierung teilzunehmen.

Open Source Sharing – Gemeinsam ein florierendes Ökosystem aufbauen

Besonders lobenswert ist, dass Open-Sora nicht nur den Modellcode und die Gewichte, sondern auch den gesamten Trainingscode als Open Source zur Verfügung stellt. Dies wird die Entwicklung des gesamten Open-Source-Ökosystems erheblich fördern. Wie Statistiken von Drittanbieter-Technologieplattformen zeigen, wurde die wissenschaftliche Arbeit zu Open-Sora innerhalb eines halben Jahres fast hundertmal zitiert und belegt einen Spitzenplatz im weltweiten Open-Source-Einflussranking. Es ist eines der weltweit einflussreichsten Open-Source-Videogenerierungsprojekte.

Das Open-Sora-Team erforscht auch aktiv die Anwendung von Video-Autoencodern mit hoher Komprimierungsrate, um die Inferenzkosten deutlich zu senken. Sie haben einen Video-Autoencoder mit hoher Komprimierungsrate (4×32×32) trainiert, der die Inferenzzeit für die Generierung eines 768px-Videos mit 5 Sekunden Länge von fast 30 Minuten auf unter 3 Minuten verkürzt hat – eine 10-fache Geschwindigkeitssteigerung! Dies bedeutet, dass wir in Zukunft noch schneller hochwertige Videoinhalte generieren können.

Das von Luojian Technology eingeführte Open-Source-Videogenerierungsmodell Open-Sora 2.0 bringt mit seinen Eigenschaften geringe Kosten, hohe Leistung und vollständiger Open-Source-Verfügbarkeit einen starken „Low-Cost“-Wind in die Videogenerierungsbranche. Es reduziert nicht nur die Lücke zu den Top-Closed-Source-Modellen, sondern senkt auch die Hürden für die Generierung hochwertiger Videos und ermöglicht es mehr Entwicklern, sich zu beteiligen und die Entwicklung der Videogenerierungstechnologie gemeinsam voranzutreiben.

🔗 GitHub Open-Source-Repository: https://github.com/hpcaitech/Open-Sora

📄Technischer Bericht: https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf