Herausforderung an Sora? Luocheng Technology veröffentlicht Open-Source-Videomodell Open-Sora 2.0 mit niedrigeren Kosten und höherer Geschwindigkeit

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 7 Minuten Lesezeit · Mar 13, 2025

Haben Sie schon von dem unglaublich teuren OpenAI Sora gehört? Die Trainingskosten von mehreren Millionen Dollar machen es zum „Rolls-Royce“ der Videogenerierung. Jetzt kündigt Luojian Technology das Open-Source-Videogenerierungsmodell Open-Sora 2.0 an!

Mit nur 200.000 US-Dollar (entspricht dem Einsatz von 224 GPUs) wurde ein kommerziell einsetzbares großes Videogenerierungsmodell mit 11 Milliarden Parametern trainiert.

Leistung auf Augenhöhe mit „OpenAI Sora“

Trotz der geringen Kosten ist Open-Sora 2.0 alles andere als schwach. Es wagt den Vergleich mit Branchenführern wie HunyuanVideo und dem 30-Milliarden-Parameter-Modell Step-Video. Bei den autoritativen VBench-Tests und den Nutzerpräferenztests überzeugte Open-Sora 2.0 mit beeindruckenden Ergebnissen und erreichte in vielen wichtigen Kennzahlen die Leistung von Closed-Source-Modellen, deren Training Millionen von Dollar kostet.

Noch aufregender ist, dass sich die Leistungsdifferenz zwischen Open-Sora 2.0 und OpenAI Sora im VBench-Test von vorherigen 4,52 % auf nur noch 0,69 % reduziert hat! Das bedeutet praktisch eine vollständige Angleichung der Leistung!

Im VBench-Test erzielte Open-Sora 2.0 sogar einen höheren Score als Tencent's HunyuanVideo. Es zeigt sich, dass mit geringeren Kosten eine höhere Leistung erzielt werden kann – ein neuer Maßstab für Open-Source-Videogenerierungstechnologien!

In den Nutzerpräferenztests übertraf Open Sora in den drei wichtigen Dimensionen visuelle Darstellung, Textkonsistenz und Bewegungsdarstellung mindestens zwei Kennzahlen der Open-Source-SOTA-Modelle HunyuanVideo und kommerziellen Modelle wie Runway Gen-3Alpha.

Das Geheimnis der kostengünstigen Hochleistung

Sie fragen sich bestimmt, wie Open-Sora 2.0 mit so geringen Kosten eine so hohe Leistung erzielt? Dahinter stecken einige Geheimnisse. Zunächst basiert die Architektur von Open Sora auf dem Design von Open-Sora 1.2 und verwendet weiterhin einen 3D-Autoencoder und ein Flow-Matching-Trainingsframework. Zusätzlich wurde ein 3D-Voll-Aufmerksamkeitsmechanismus eingeführt, um die Qualität der Videogenerierung weiter zu verbessern.

Um die Kosten optimal zu senken, wurde Open-Sora 2.0 in mehreren Bereichen optimiert:

Strenge Datenauswahl, um qualitativ hochwertige Trainingsdaten zu gewährleisten und die Effizienz von Grund auf zu steigern.
Training mit niedriger Auflösung priorisiert, um Bewegungsinformationen effizient zu lernen und die Rechenkosten zu senken. Das Training mit hoher Auflösung ist um ein Vielfaches teurer als mit niedriger Auflösung!
Bild-zu-Video-Aufgaben priorisiert, um die Konvergenz des Modells zu beschleunigen und die Trainingskosten weiter zu senken. In der Inferenzphase kann auch Text-zu-Bild-zu-Video (T2I2V) verwendet werden, um feinere visuelle Effekte zu erzielen.
Eine effiziente parallele Trainingslösung wurde implementiert, die in Kombination mit ColossalAI und systemischen Optimierungen die Auslastung der Rechenressourcen deutlich verbessert. Diverse „High-Tech“-Funktionen wie effizientes sequentielles Parallelisieren und ZeroDP, fein granulare Gradienten-Checkpointing und automatische Wiederherstellungsmechanismen für das Training steigern die Trainingseffizienz erheblich.

Schätzungen zufolge betragen die Trainingskosten für Open-Source-Videomodelle mit über 10 Milliarden Parametern auf dem Markt oft über eine Million US-Dollar. Open Sora 2.0 senkt diese Kosten um das 5- bis 10-fache. Dies ist ein wahrer Segen für die Videogenerierung und ermöglicht es mehr Menschen, an der Entwicklung hochwertiger Videogenerierung teilzunehmen.

Open Source Sharing – Gemeinsam ein florierendes Ökosystem aufbauen

Besonders lobenswert ist, dass Open-Sora nicht nur den Modellcode und die Gewichte, sondern auch den gesamten Trainingscode als Open Source zur Verfügung stellt. Dies wird die Entwicklung des gesamten Open-Source-Ökosystems erheblich fördern. Wie Statistiken von Drittanbieter-Technologieplattformen zeigen, wurde die wissenschaftliche Arbeit zu Open-Sora innerhalb eines halben Jahres fast hundertmal zitiert und belegt einen Spitzenplatz im weltweiten Open-Source-Einflussranking. Es ist eines der weltweit einflussreichsten Open-Source-Videogenerierungsprojekte.

Das Open-Sora-Team erforscht auch aktiv die Anwendung von Video-Autoencodern mit hoher Komprimierungsrate, um die Inferenzkosten deutlich zu senken. Sie haben einen Video-Autoencoder mit hoher Komprimierungsrate (4×32×32) trainiert, der die Inferenzzeit für die Generierung eines 768px-Videos mit 5 Sekunden Länge von fast 30 Minuten auf unter 3 Minuten verkürzt hat – eine 10-fache Geschwindigkeitssteigerung! Dies bedeutet, dass wir in Zukunft noch schneller hochwertige Videoinhalte generieren können.

Das von Luojian Technology eingeführte Open-Source-Videogenerierungsmodell Open-Sora 2.0 bringt mit seinen Eigenschaften geringe Kosten, hohe Leistung und vollständiger Open-Source-Verfügbarkeit einen starken „Low-Cost“-Wind in die Videogenerierungsbranche. Es reduziert nicht nur die Lücke zu den Top-Closed-Source-Modellen, sondern senkt auch die Hürden für die Generierung hochwertiger Videos und ermöglicht es mehr Entwicklern, sich zu beteiligen und die Entwicklung der Videogenerierungstechnologie gemeinsam voranzutreiben.

🔗 GitHub Open-Source-Repository: https://github.com/hpcaitech/Open-Sora

📄Technischer Bericht: https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

NVIDIA veröffentlicht das multimodale Verständnismodell OmniVinci, das in verschiedenen Benchmarks um 19,05 Punkte besser abschneidet als führende Modelle. Das Modell verwendet nur 0,2 Billionen Trainings-Token und erreicht eine sechsmal höhere Daten-effizienz als Konkurrenten. Es soll die einheitliche Wahrnehmung von Bildern, Audio und Text ermöglichen und die multimedialen Fähigkeiten von Maschinen voranbringen.

Der Team der Ant-Bailin-Modellreihe open-sourcet Ring-flash-linear-2.0-128K mit gemischt linearer Aufmerksamkeit und MoE-Architektur, um die Effizienz bei langen Textprogrammierungen neu zu definieren

Das Ant-Group-Team hat das Bailin-Modell Ring-flash-linear-2.0-128K open-source veröffentlicht, das sich auf Programmierung mit extrem langen Texten spezialisiert. Es verwendet eine gemischte lineare Aufmerksamkeits- und seltene MoE-Architektur, wodurch nur 6,1 Milliarden Parameter aktiviert werden können, um 40 Milliarden dichte Modelle zu übertreffen. In den Bereichen Code-Generierung und intelligente Agenten zeigt es optimale Leistung und löst effizient die Probleme bei der Bearbeitung langer Kontexte.

Die AI-Video-Produktreihe SkyReels von Kunlun Wanyi wird im November eine neue Version launchen

Das AI-Video-Produkt SkyReels von Kunlun Wanyi gab bekannt, dass die neue Version voraussichtlich Anfang November offiziell veröffentlicht wird. Unter der Stärkung der AI-Strategie von Kunlun Wanyi hat dieses Produkt die Möglichkeit, den führenden Platz des Unternehmens auf dem weltweiten AI-Video-Markt weiter zu sichern und die branchenweite Vision, „jeder kann an professioneller Videoproduktion teilnehmen“, schneller umzusetzen. Derzeit können Nutzer aus aller Welt sich auf der offiziellen Website von SkyReels registrieren, um das Modell zu testen.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Herausforderung an Sora? Luocheng Technology veröffentlicht Open-Source-Videomodell Open-Sora 2.0 mit niedrigeren Kosten und höherer Geschwindigkeit

AIbase基地

Das Geheimnis der kostengünstigen Hochleistung

Open Source Sharing – Gemeinsam ein florierendes Ökosystem aufbauen

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

​NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

Der Team der Ant-Bailin-Modellreihe open-sourcet Ring-flash-linear-2.0-128K mit gemischt linearer Aufmerksamkeit und MoE-Architektur, um die Effizienz bei langen Textprogrammierungen neu zu definieren

Kimi CLI von Moonshot Open Source: Dual-Modus-Schaltung zwischen Befehlszeile und AI-Agent - Ein neues Werkzeug zur Steigerung der Entwicklereffizienz

MiniMax-Open-M2-Modell: Hochleistungs-KI für Codierung und Agenten, nur 8 % des Preises der Konkurrenz

Kunststoff-Bildbearbeitung! ByteDance und Hong Kong University of Science and Technology schließen DreamOmni2 gemeinsam und lösen das Problem der AI-Verständnis abstrakter Konzepte

Die AI-Video-Produktreihe SkyReels von Kunlun Wanyi wird im November eine neue Version launchen

Qwen3-VL-Familie mit 2B und 32B-Modellen erweitert, Open-Source-Matrix wird umfassend aktualisiert

Open-Source-AI-Agenten-Plattform LangChain hat eine Finanzierung von 125 Millionen US-Dollar abgeschlossen: Der Wert liegt bei 1,25 Milliarden US-Dollar und macht sie zu einem Unicorn

Open-Source-Unternehmen LangChain erhält 1,25 Milliarden Dollar Finanzierung und seine Bewertung steigt auf 1,25 Milliarden Dollar

Unitree H2- menschenähnlicher Roboter von Yushu Technology: Körpergröße 180, biologische Gesichtsform und erstaunliche Koordination

Empfohlene verwandte KI-Nachrichten

​NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

Der Team der Ant-Bailin-Modellreihe open-sourcet Ring-flash-linear-2.0-128K mit gemischt linearer Aufmerksamkeit und MoE-Architektur, um die Effizienz bei langen Textprogrammierungen neu zu definieren

Kimi CLI von Moonshot Open Source: Dual-Modus-Schaltung zwischen Befehlszeile und AI-Agent - Ein neues Werkzeug zur Steigerung der Entwicklereffizienz

MiniMax-Open-M2-Modell: Hochleistungs-KI für Codierung und Agenten, nur 8 % des Preises der Konkurrenz

Kunststoff-Bildbearbeitung! ByteDance und Hong Kong University of Science and Technology schließen DreamOmni2 gemeinsam und lösen das Problem der AI-Verständnis abstrakter Konzepte

Die AI-Video-Produktreihe SkyReels von Kunlun Wanyi wird im November eine neue Version launchen

Qwen3-VL-Familie mit 2B und 32B-Modellen erweitert, Open-Source-Matrix wird umfassend aktualisiert

Open-Source-AI-Agenten-Plattform LangChain hat eine Finanzierung von 125 Millionen US-Dollar abgeschlossen: Der Wert liegt bei 1,25 Milliarden US-Dollar und macht sie zu einem Unicorn

Open-Source-Unternehmen LangChain erhält 1,25 Milliarden Dollar Finanzierung und seine Bewertung steigt auf 1,25 Milliarden Dollar

Unitree H2- menschenähnlicher Roboter von Yushu Technology: Körpergröße 180, biologische Gesichtsform und erstaunliche Koordination

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6

NVIDIA open-sourcet OmniVinci-Modell für multimodale Wahrnehmung, Trainingsdaten nur 1/6