In der jüngsten Entwicklung des künstlichen Intelligenz-basierten Videosynthesegriffs hat ByteDance (das Mutterunternehmen von TikTok) unauffällig ein neues Modell namens Seedance1.0 veröffentlicht. In unabhängigen Tests hat dieses Modell bereits Google's kürzlich vorgestellte Veo3 übertroffen. Veo3 ist durch seine Audio-Synthese und Filmwerkzeuge hervorgetreten, aber die technische Leistung von Seedance1.0 hat alle überrascht und es zum Vorreiter im Videosynthesebereich gemacht.
Die Forschungsarbeit zu Seedance1.0 beschreibt detailliert die Innovationen des Modells. Das Team von ByteDance hat durch die Entkoppelung von Raum- und Zeitdimensionen eine multimodale Positionsverschlüsselung integriert, wodurch das Modell sowohl Text-zu-Videos als auch Bild-zu-Videos generieren kann. Diese Methode ermöglicht komplexe Szene-Wechsel und Multikamera-Narrationen, wobei ein konsistentes Thema erhalten bleibt.
Zudem verdankt Seedance1.0 seine Leistung ByteDances starke Datenpipeline. Das Team hat einen großflächigen, vielfältigen Datensatz mit detaillierten bilingualen Annotationen und umfassenden Bewegungs- und statischen Merkmalsmarkierungen sorgfältig erstellt, um die Präzision der generierten Inhalte zu gewährleisten. Zusätzlich wurde eine neuartige verstärkte Lernmethode verwendet, die drei Reward-Modelle kombiniert, wobei der Fokus auf grundlegender Ausrichtung, Bewegungsqualität und Ästhetik liegt.
In den Tests übertraf Seedance1.0 Veo3 in vielen Dimensionen. Im SeedVideoBench-Benchmark, der in Zusammenarbeit mit Filmemachern entwickelt wurde, erzielte das Modell höhere Werte bei der Einhaltung der Hinweise und der Realismus der Bewegungen. Bei der Aufgabe Bild-zu-Video blieb Seedance die visuelle Konsistenz der Eingabeframes erhalten, während Veo3 in manchen Fällen Licht- und Texturänderungen zeigte.
In Bezug auf die Inferenzleistung hat Seedance1.0 ebenfalls ausgezeichnete Resultate gezeigt. Das Modell kann innerhalb von 41,4 Sekunden einen 1080p fünf Sekunden langer Video-Sequence generieren – eine Geschwindigkeit, die weit über den Konkurrenten wie Sora, Runway Gen-4 und Veo3 hinausgeht. ByteDance hat außerdem bedeutende Fortschritte in der Kostenoptimierung und der Verkürzung der Latenzzeit erzielt, was die Integration von Videosynthese in real-time-Anwendungen näher bringt.
Seedance1.0 ist für Juni 2025 für die Plattformen Doubao und Jimeng geplant und soll die professionellen Arbeitsabläufe sowie alltägliche kreative Aufgaben deutlich verbessern. Obwohl Veo3 wegen seiner Kombination von echten Videos mit Umgebungsgeräuschen und Dialogen Beachtung fand, zeigt Seedance1.0 bessere Ergebnisse bei visueller Detailgenauigkeit, Bewegungsstabilität und narrativer Kohärenz, wenn auch mit geringeren audiofunktionellen Fähigkeiten.
Hier die wichtigsten Punkte:
🌟 Die Veröffentlichung von Seedance1.0 hat Googles Veo3 übertroffen und ist zu einem neuen Maßstab im Videosynthesebereich geworden.
⚙️ Das Modell erreicht komplexe Szene-Wechsel und Multikamera-Narrationen durch multimodale Positionsverschlüsselung.
⚡ Seedance1.0 zeigt hervorragende Performanz in der Erzeugungsgeschwindigkeit und visuellen Konsistenz und wird im Jahr 2025 zu einem wichtigen Werkzeug für professionelle Schaffende werden.