Die Volcano Engine Technology Co., Ltd. hat auf der AI-Innovations-Roadshow 2024 die Einführung des Doubao-Videogenerierungsmodells angekündigt, dem neuesten Mitglied seiner großen Modellfamilie.

Tan Dai, Präsident von Volcano Engine, erklärte, dass das Doubao-Videogenerierungsmodell über mehrere fortschrittliche Funktionen in der Videogenerierung verfügt, darunter präzises semantische Verständnis, Interaktion mit mehreren Aktionen und mehreren Subjekten, leistungsstarke dynamische Effekte und die Fähigkeit zur konsistenten Mehrkamera-Generierung.

微信截图_20240924152238.png

Das Modell kann komplexe Anweisungen verstehen und befolgen, Interaktionen zwischen mehreren Subjekten realisieren und beeindruckende Übergänge zwischen großen dynamischen Elementen und Kameraperspektiven im Video erzeugen. Darüber hinaus kann es die Konsistenz bei Mehrkamera-Übergängen beibehalten, innerhalb von 10 Sekunden eine vollständige Geschichte erzählen und verschiedene Stile und Verhältnisse unterstützen, wie z. B. Schwarzweiß, 3D-Animationen und traditionelle chinesische Malerei.

Das Modell unterstützt verschiedene Stile, darunter Schwarzweiß, 3D-Animationen, 2D-Animationen und traditionelle chinesische Malerei, und kann sich an verschiedene Verhältnisse wie 1:1, 3:4, 4:3, 16:9, 9:16 und 21:9 anpassen, um verschiedene Endgeräte und Bildformate zu unterstützen.

Das Doubao-Videogenerierungsmodell verbessert nicht nur die hohe Wiedergabetreue der Videoqualität, sondern ermöglicht auch beeindruckende Übergänge zwischen großen dynamischen Elementen und Kameraperspektiven im Video und verfügt über eine umfangreiche Kamerasprache mit Funktionen wie Zoom, Rundum-Aufnahmen, Schwenks, Vergrößerungen und Zielverfolgung.

Das Doubao-Videogenerierungs-Großmodell umfasst hauptsächlich zwei Versionen: Doubao-Videogenerierung PixelDance und Doubao-Videogenerierung-Seaweed.

Bei Volcano Engine sind die Versionen PixelDance und Seaweed von Doubao-Videogenerierung online verfügbar.

image.png

I. Doubao-Videogenerierung PixelDance

PixelDance V1.4 ist ein von ByteDance Research entwickeltes großes Videogenerierungsmodell mit DiT-Struktur, das sowohl Text-zu-Video- als auch Bild-zu-Video-Generierung unterstützt und in der Lage ist, auf einmal bis zu 10 Sekunden lange, beeindruckende Videoclips zu generieren.

Dieses Modell unterstützt die Eingabe von Text und Bildern zur Videogenerierung und verfügt über ein hervorragendes semantisches Verständnis, um schnell hochwertige Videoclips zu generieren. Es kann in verschiedenen Bereichen wie Filmherstellung und Werbung eingesetzt werden.

Hier sind Beispiele für die PixelDance-Version:

Präzises semantisches Verständnis

PixelDance V1.4 kann komplexe Prompts befolgen und zeitliche Mehrfach-Aktionsanweisungen sowie die Interaktion zwischen mehreren Subjekten ermöglichen.

Prompt: Ein Mann betritt das Bild, eine Frau dreht sich zu ihm um, sie umarmen sich, die Leute im Hintergrund bewegen sich.

Starke Dynamik und beeindruckende Kameraführung

Unterstützt zahlreiche Kamerabewegungen, flexible Steuerung der Perspektive und bietet ein Erlebnis wie in der realen Welt.

Konsistente Mehrkamera-Generierung

Besitzt die Fähigkeit, mit einem Klick mehrkamera-basierte Kurzfilme mit einer Geschichte zu generieren und hat die technische Herausforderung der Konsistenz bei Mehrkamera-Übergängen erfolgreich gemeistert. Es kann innerhalb von 10 Sekunden eine Geschichte mit Anfang, Höhepunkt und Ende erzählen. In einem Prompt werden mehrere Kamerawechsel realisiert, wobei gleichzeitig die Konsistenz von Motiv, Stil und Atmosphäre erhalten bleibt.

Vielfältige Stile und Verhältnisse

Die optimierte Transformer-Struktur verbessert die Generalisierungsfähigkeit der Videogenerierung erheblich und unterstützt verschiedene Stile wie Schwarzweiß, 3D-Animationen, 2D-Animationen, traditionelle chinesische Malerei, Aquarell und Gouache sowie sechs verschiedene Verhältnisse: 1:1, 3:4, 4:3, 16:9, 9:16 und 21:9.

image.png

II. Doubao-Videogenerierung-Seaweed

Dieses Modell unterstützt zwei Arten der Videogenerierung: Text-zu-Video und Bild-zu-Video. Die Technologie basiert auf einer Transformer-Struktur und nutzt einen zeitlich-räumlich komprimierten latenten Raum für das Training. Das Modell unterstützt nativ die Generierung mit mehreren Auflösungen und passt sich an Hoch- und Querformat an. Es kann sich an die Auflösung der vom Benutzer eingegebenen hochauflösenden Bilder anpassen und diese erhalten. Die Standardausgabe ist 720p Auflösung, 24fps und 5 Sekunden Länge, kann aber dynamisch auf 20-30 Sekunden verlängert werden.

Hier sind Beispiele für die Seaweed-Version:

Sehr realistisch, detaillierte und reichhaltige Details

Prompt: Ein großer Panda genießt einen dampfenden Hotpot.

Professionelle Farben und Lichtsetzung

Dynamisch und flüssig

Die Einführung des Doubao-Videogenerierungsmodells wird voraussichtlich Innovationen und Effizienzsteigerungen in verschiedenen Bereichen wie E-Commerce-Marketing, Animationsausbildung, Stadt- und Tourismusmarketing sowie Kurzfilmproduktionen (Musikvideos, Kurzfilme, Kurzserien usw.) bringen. Volcano Engine erklärte, dass die Veröffentlichung des Modells die Innovation von AIGC-Anwendungen umfassend beschleunigen wird.

Volcano Engine hat sich verpflichtet, die Weiterentwicklung und Iteration der Modellfähigkeiten voranzutreiben, die Anwendung der Modellfähigkeiten in weiteren Bereichen zu erforschen und Unternehmen bei der Umsetzung von Cloud-basierter Intelligenz zu unterstützen.

Daten zeigen, dass die tägliche Nutzung von Doubao-Großmodell-Tokens bis September bereits über 1,3 Billionen Token erreichte. Innerhalb von 4 Monaten ist die Gesamtzahl der Tokens um über das Zehnfache gestiegen. Im Bereich der multimodalen Daten generiert Doubao-Text-zu-Bild-Modell täglich 50 Millionen Bilder. Darüber hinaus verarbeitet Doubao derzeit täglich 850.000 Stunden Sprache.