Google hat kürzlich sein neuestes Videosynthesemodell Veo3 vorgestellt, das eine große Sprung in der Entwicklung von AI-generierten Videos markiert. Dieses neue Modell ermöglicht es, Videos mit synchronisierten Bildern und Sprache zu erstellen, die auf Nutzeranweisungen basieren und hochwertige Videos mit Dialogen, synchronisierten Lippenbewegungen und Umgebungsgeräuschen generieren können. Diese Innovation überschreitet die Grenzen multimodaler Technologien und macht es möglich, dass Videos nicht nur bewegt werden, sondern auch sprechen.

Das Kernstück der Technologie von Veo3 ist das sogenannte V2A-Algorithmus (Video-zu-Audio), das visuelle Informationen aus Videos in semantische Signale umwandelt und diese mit Textanweisungen kombiniert, um Audiospur zu generieren. Dank der umfangreichen Datenressourcen, die Google auf Plattformen wie YouTube gesammelt hat, zeigt Veo3 erstaunliche Fähigkeiten bei der Kombination von Bild und Ton. Aktuell steht dieses Tool nur für US-amerikanische Hochpreisabonnenten zur Verfügung, aber seine Einführung birgt eindeutig neue Möglichkeiten für den Videoschaffenden-Bereich.

Skifahren, Extrem-Sport

Quelle des Bildes: Bilder generiert durch AI, Lizenzdienstleister Midjourney

Die mächtigen Funktionen von Veo3 sind vielfältig. Erstens kann es synchronisierte Dialoge mit realistischen Geräusken selbstständig generieren. Zum Beispiel kann ein Nutzer lediglich eine einfache Anweisung eingeben, und Veo3 generiert ein komplettes Szenario mit Personen, Dialogen, Umgebungsgeräuschen und sogar dem Lachen des Publikums – eine echte Neuheit. Zweitens verfügt Veo3 über ein tiefgehendes Verständnis komplexer Anweisungen und kann logisch zusammenhängende und zeitlich strukturierte Videoclips generieren, was in früheren Videosynthesemodelle sehr schwierig war. Schließlich zeigt das Modell außergewöhnliche Fähigkeiten beim Umgang mit physischen Weltgeräuschen, wie Schritten oder Kochgeräuschen, was Videos lebendiger und immersiver macht.

Obwohl die maximale Länge der Videos von Veo3 8 Sekunden beträgt und das Tool aktuell nur für Hochpreisabonnenten mit einem Preis von 249,99 USD verfügbar ist, hat seine bemerkenswerte Fähigkeit zur synchronisierten Bild-Ton-Kombination bereits großes Interesse geweckt. In Zukunft wird Veo3 mit weiter fortschreitender Technologie zweifellos dazu beitragen, die Videosynthese-Technologie auf einen neuen Höhepunkt zu bringen.