ByteDance veröffentlicht bahnbrechendes Doubao-Videogenerierungsmodell: 10-Sekunden-Videos und konsistente Mehrkameraaufnahmen

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 8 Minuten Lesezeit · Sep 24, 2024

1.7k

Die Volcano Engine Technology Co., Ltd. hat auf der AI-Innovations-Roadshow 2024 die Einführung des Doubao-Videogenerierungsmodells angekündigt, dem neuesten Mitglied seiner großen Modellfamilie.

Tan Dai, Präsident von Volcano Engine, erklärte, dass das Doubao-Videogenerierungsmodell über mehrere fortschrittliche Funktionen in der Videogenerierung verfügt, darunter präzises semantische Verständnis, Interaktion mit mehreren Aktionen und mehreren Subjekten, leistungsstarke dynamische Effekte und die Fähigkeit zur konsistenten Mehrkamera-Generierung.

微信截图_20240924152238.png

Das Modell kann komplexe Anweisungen verstehen und befolgen, Interaktionen zwischen mehreren Subjekten realisieren und beeindruckende Übergänge zwischen großen dynamischen Elementen und Kameraperspektiven im Video erzeugen. Darüber hinaus kann es die Konsistenz bei Mehrkamera-Übergängen beibehalten, innerhalb von 10 Sekunden eine vollständige Geschichte erzählen und verschiedene Stile und Verhältnisse unterstützen, wie z. B. Schwarzweiß, 3D-Animationen und traditionelle chinesische Malerei.

Das Modell unterstützt verschiedene Stile, darunter Schwarzweiß, 3D-Animationen, 2D-Animationen und traditionelle chinesische Malerei, und kann sich an verschiedene Verhältnisse wie 1:1, 3:4, 4:3, 16:9, 9:16 und 21:9 anpassen, um verschiedene Endgeräte und Bildformate zu unterstützen.

Das Doubao-Videogenerierungsmodell verbessert nicht nur die hohe Wiedergabetreue der Videoqualität, sondern ermöglicht auch beeindruckende Übergänge zwischen großen dynamischen Elementen und Kameraperspektiven im Video und verfügt über eine umfangreiche Kamerasprache mit Funktionen wie Zoom, Rundum-Aufnahmen, Schwenks, Vergrößerungen und Zielverfolgung.

Das Doubao-Videogenerierungs-Großmodell umfasst hauptsächlich zwei Versionen: Doubao-Videogenerierung PixelDance und Doubao-Videogenerierung-Seaweed.

Bei Volcano Engine sind die Versionen PixelDance und Seaweed von Doubao-Videogenerierung online verfügbar.

I. Doubao-Videogenerierung PixelDance

PixelDance V1.4 ist ein von ByteDance Research entwickeltes großes Videogenerierungsmodell mit DiT-Struktur, das sowohl Text-zu-Video- als auch Bild-zu-Video-Generierung unterstützt und in der Lage ist, auf einmal bis zu 10 Sekunden lange, beeindruckende Videoclips zu generieren.

Dieses Modell unterstützt die Eingabe von Text und Bildern zur Videogenerierung und verfügt über ein hervorragendes semantisches Verständnis, um schnell hochwertige Videoclips zu generieren. Es kann in verschiedenen Bereichen wie Filmherstellung und Werbung eingesetzt werden.

Hier sind Beispiele für die PixelDance-Version:

Präzises semantisches Verständnis

PixelDance V1.4 kann komplexe Prompts befolgen und zeitliche Mehrfach-Aktionsanweisungen sowie die Interaktion zwischen mehreren Subjekten ermöglichen.

Prompt: Ein Mann betritt das Bild, eine Frau dreht sich zu ihm um, sie umarmen sich, die Leute im Hintergrund bewegen sich.

Starke Dynamik und beeindruckende Kameraführung

Unterstützt zahlreiche Kamerabewegungen, flexible Steuerung der Perspektive und bietet ein Erlebnis wie in der realen Welt.

Konsistente Mehrkamera-Generierung

Besitzt die Fähigkeit, mit einem Klick mehrkamera-basierte Kurzfilme mit einer Geschichte zu generieren und hat die technische Herausforderung der Konsistenz bei Mehrkamera-Übergängen erfolgreich gemeistert. Es kann innerhalb von 10 Sekunden eine Geschichte mit Anfang, Höhepunkt und Ende erzählen. In einem Prompt werden mehrere Kamerawechsel realisiert, wobei gleichzeitig die Konsistenz von Motiv, Stil und Atmosphäre erhalten bleibt.

Vielfältige Stile und Verhältnisse

Die optimierte Transformer-Struktur verbessert die Generalisierungsfähigkeit der Videogenerierung erheblich und unterstützt verschiedene Stile wie Schwarzweiß, 3D-Animationen, 2D-Animationen, traditionelle chinesische Malerei, Aquarell und Gouache sowie sechs verschiedene Verhältnisse: 1:1, 3:4, 4:3, 16:9, 9:16 und 21:9.

II. Doubao-Videogenerierung-Seaweed

Dieses Modell unterstützt zwei Arten der Videogenerierung: Text-zu-Video und Bild-zu-Video. Die Technologie basiert auf einer Transformer-Struktur und nutzt einen zeitlich-räumlich komprimierten latenten Raum für das Training. Das Modell unterstützt nativ die Generierung mit mehreren Auflösungen und passt sich an Hoch- und Querformat an. Es kann sich an die Auflösung der vom Benutzer eingegebenen hochauflösenden Bilder anpassen und diese erhalten. Die Standardausgabe ist 720p Auflösung, 24fps und 5 Sekunden Länge, kann aber dynamisch auf 20-30 Sekunden verlängert werden.

Hier sind Beispiele für die Seaweed-Version:

Sehr realistisch, detaillierte und reichhaltige Details

Prompt: Ein großer Panda genießt einen dampfenden Hotpot.

Professionelle Farben und Lichtsetzung

Dynamisch und flüssig

Die Einführung des Doubao-Videogenerierungsmodells wird voraussichtlich Innovationen und Effizienzsteigerungen in verschiedenen Bereichen wie E-Commerce-Marketing, Animationsausbildung, Stadt- und Tourismusmarketing sowie Kurzfilmproduktionen (Musikvideos, Kurzfilme, Kurzserien usw.) bringen. Volcano Engine erklärte, dass die Veröffentlichung des Modells die Innovation von AIGC-Anwendungen umfassend beschleunigen wird.

Volcano Engine hat sich verpflichtet, die Weiterentwicklung und Iteration der Modellfähigkeiten voranzutreiben, die Anwendung der Modellfähigkeiten in weiteren Bereichen zu erforschen und Unternehmen bei der Umsetzung von Cloud-basierter Intelligenz zu unterstützen.

Daten zeigen, dass die tägliche Nutzung von Doubao-Großmodell-Tokens bis September bereits über 1,3 Billionen Token erreichte. Innerhalb von 4 Monaten ist die Gesamtzahl der Tokens um über das Zehnfache gestiegen. Im Bereich der multimodalen Daten generiert Doubao-Text-zu-Bild-Modell täglich 50 Millionen Bilder. Darüber hinaus verarbeitet Doubao derzeit täglich 850.000 Stunden Sprache.

Volc Engine veröffentlicht das Dashao-Modell 1.6-vision mit entscheidenden Fortschritten in der visuellen Verarbeitung

Volc Engine veröffentlicht das Dashao-Modell 1.6-vision und erzielt einen Durchbruch im Bereich der visuellen Verarbeitung. Das Kernmerkmal dieses Modells ist die Fähigkeit, Tools zu verwenden, durch Optimierung der Algorithmen und verstärktes Lernen wird die Genauigkeit und Geschwindigkeit der Bilderkennung und Objekterkennung erheblich verbessert, was den Fortschritt der Anwendung von KI-Technologien fördert.

Douba Big Model 1.6-vision wird offiziell veröffentlicht, die Gesamtkosten wurden um etwa 50 % im Vergleich zur vorherigen Generation gesenkt

Huo Yan Engine veröffentlicht den Douba Big Model 1.6-vision, der das erste visuelle tiefes Denkmodell der Familie mit der Fähigkeit zum Werkzeugaufruf ist. Er verbessert die Fähigkeiten der multimodalen Verständnis und Schlussfolgerung, unterstützt Responses API und verfügt über zentrale Vorteile, darunter präzises visuelles Verständnis durch Werkzeugaufrufe, die Fähigkeit, Bilder in den Gedankenprozess einzubinden, sowie Unterstützung für Bildpositionierung, -schnitt und -auswahl.

LiquidAI stellt die Reihe Liquid Nanos mit leichten KI-Modellen für Anwendungen auf Edge-Geräten vor

LiquidAI hat eine Reihe leichter KI-Modelle namens Liquid Nanos vorgestellt, speziell für Edge-Computing-Geräte wie Raspberry Pi. Die Reihe bietet zwei Parameterversionen mit 350 M und 1,2 B Parametern und unterstützt fünf Anwendungsfälle wie Übersetzung, Informationsextraktion, RAG, Werkzeugaufruf und mathematische Schlussfolgerung. Sie erfüllt die Anforderungen an niedrigen Stromverbrauch und hohe Leistung und bietet Entwicklern vielfältige Lösungen für Edge-KI.

AI-Tagesbericht: Shengshu Technology stellt Vidu Q2 vor; Yanhuo Engine stellt Lumi vor; Tongyi Qianwen öffnet über 300 Modelle

【AI-Tagesbericht】Fokussiert auf AI-Trends, tägliche Berichte zu Technologietrends und Innovationen. Dieser Ausgabe: Shengshu Technology veröffentlicht das Vidu Q2-Modell, mit Fortschritten im Bereich Bild-zu-Video. Die Technologie zur Erzeugung feiner Gesichtsausdrücke verbessert deutlich die Authentizität der KI-Darstellung. Die Reihe bietet weiterhin Entwicklern aktuelle Informationen und Produktaktualisierungen.

Alibaba-CEO Wu Yongming: Der Endzustand von KI geht nicht nur bis AGI, der Weg zur Super-Künstlichen Intelligenz wird enthüllt

Auf der Hangzhou Cloud Computing Conference skizzierte Alibaba-CEO Wu Yongming die KI-Strategie. AGI sei unvermeidlich, das Ziel sei jedoch Superintelligenz (ASI). Er unterteilte den Weg dorthin in drei Phasen, wobei man sich aktuell in der Phase der "intelligenten Emergenz" befinde, in der KI durch massives Lernen generalisierte Intelligenz erlangt.....

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

ByteDance veröffentlicht bahnbrechendes Doubao-Videogenerierungsmodell: 10-Sekunden-Videos und konsistente Mehrkameraaufnahmen

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

OpenAI stellt Sora-Video-App vor und aktualisiert das Videoerstellungsmodell Sora 2

Volc Engine veröffentlicht das Dashao-Modell 1.6-vision mit entscheidenden Fortschritten in der visuellen Verarbeitung

Douba Big Model 1.6-vision wird offiziell veröffentlicht, die Gesamtkosten wurden um etwa 50 % im Vergleich zur vorherigen Generation gesenkt

DeepMind präsentiert mit großem Aufwand das Konzept von FrameChain: Video-Modelle könnten eine umfassende visuelle Verständnis erreichen

JD.com stellt ein leistungsstarkes Inferenz-Engine mit chinesischen Chips vor

Nicht nur das Erstellen von Videos: Google Veo3 überrascht mit der Fähigkeit, Sudoku automatisch zu lösen und Labyrinthe zu meistern

LiquidAI stellt die Reihe Liquid Nanos mit leichten KI-Modellen für Anwendungen auf Edge-Geräten vor

AI-Tagesbericht: Shengshu Technology stellt Vidu Q2 vor; Yanhuo Engine stellt Lumi vor; Tongyi Qianwen öffnet über 300 Modelle

Volcano Engine stellt die Lumi-Plattform vor, die die Fine-Tuning von visuellen Modellen mit Lora unterstützt

Alibaba-CEO Wu Yongming: Der Endzustand von KI geht nicht nur bis AGI, der Weg zur Super-Künstlichen Intelligenz wird enthüllt

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

ByteDance veröffentlicht bahnbrechendes Doubao-Videogenerierungsmodell: 10-Sekunden-Videos und konsistente Mehrkameraaufnahmen

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

OpenAI stellt Sora-Video-App vor und aktualisiert das Videoerstellungsmodell Sora 2

Volc Engine veröffentlicht das Dashao-Modell 1.6-vision mit entscheidenden Fortschritten in der visuellen Verarbeitung

Douba Big Model 1.6-vision wird offiziell veröffentlicht, die Gesamtkosten wurden um etwa 50 % im Vergleich zur vorherigen Generation gesenkt

DeepMind präsentiert mit großem Aufwand das Konzept von FrameChain: Video-Modelle könnten eine umfassende visuelle Verständnis erreichen

JD.com stellt ein leistungsstarkes Inferenz-Engine mit chinesischen Chips vor

Nicht nur das Erstellen von Videos: Google Veo3 überrascht mit der Fähigkeit, Sudoku automatisch zu lösen und Labyrinthe zu meistern

LiquidAI stellt die Reihe Liquid Nanos mit leichten KI-Modellen für Anwendungen auf Edge-Geräten vor

AI-Tagesbericht: Shengshu Technology stellt Vidu Q2 vor; Yanhuo Engine stellt Lumi vor; Tongyi Qianwen öffnet über 300 Modelle

Volcano Engine stellt die Lumi-Plattform vor, die die Fine-Tuning von visuellen Modellen mit Lora unterstützt

Alibaba-CEO Wu Yongming: Der Endzustand von KI geht nicht nur bis AGI, der Weg zur Super-Künstlichen Intelligenz wird enthüllt

GEO Services