Kürzlich hat DeepMind in ihrer neuesten Arbeit einen revolutionären Konzept eingeführt – „Frame Chain“ (CoF, chain-of-frames), was einen wichtigen Schritt in der Entwicklung von Video-Generationsmodellen darstellt. Dieses Konzept ist dem „Chain of Thought“ (CoT) ähnlich, das es Sprachmodellen ermöglicht, symbolische Schlussfolgerungen zu ziehen. „Frame Chain“ hingegen ermöglicht es Videomodellen, räumlich und zeitlich zu schlussfolgern und verleiht ihnen so eine Art eigenständiges Denkvermögen.

In der Arbeit hat das Forschungsteam von DeepMind eine mutige Idee vorgeschlagen: Können Video-Generationsmodelle wie aktuelle große Sprachmodelle (LLM) eine allgemeine visuelle Verständnisfähigkeit besitzen, um verschiedene visuelle Aufgaben ohne spezielle Trainings zu bewältigen? Derzeit befindet sich die Maschinenvison noch in einer traditionellen Phase, wobei verschiedene Aufgaben unterschiedliche Modelle erfordern, z. B. Objektsegmentierung, Objekterkennung usw., wobei jedes Mal das Modell neu justiert werden muss.

image.png

Um diese Idee zu überprüfen, verwendete das Forschungsteam eine einfache und direkte Methode: Sie gaben dem Modell nur ein Ausgangsbild und eine Textanweisung und prüften, ob es in der Lage war, ein 720p-basiertes Video mit einer Länge von 8 Sekunden zu generieren. Dieser Ansatz ist dem von großen Sprachmodellen ähnelt, bei denen Aufgaben durch Prompting abgeschlossen werden, mit dem Ziel, die natürliche Allroundfähigkeit des Modells zu testen.

Die Ergebnisse zeigten, dass das Veo3-Modell von DeepMind in mehreren klassischen visuellen Aufgaben hervorragende Leistungen erbrachte und somit sowohl Wahrnehmungs-, Modellierungs- als auch Steuerungsfähigkeiten zeigte. Überraschenderweise zeigte es bei der Durchführung von räumlich-zeitlicher visueller Schlussfolgerung beeindruckende Fähigkeiten und konnte eine Reihe von Pfaden planen, um komplexe visuelle Probleme zu lösen.

image.png

Insgesamt fasste das Team von DeepMind folgende drei Kernschlüsse zusammen:

Starke universelle Anpassungsfähigkeit: Veo3 kann viele Aufgaben lösen, an denen es nicht speziell trainiert wurde, und zeigt starke Allroundfähigkeiten.

Erste Anzeichen der visuellen Schlussfolgerung: Durch die Analyse der generierten Videos zeigte Veo3 eine visuelle Schlussfolgerungsfähigkeit, die dem „Frame Chain“ ähnelt, und baute schrittweise ein Verständnis der visuellen Welt auf.

Offensichtlicher Entwicklungszyklus: Obwohl spezialisierte Modelle für bestimmte Aufgaben bessere Ergebnisse liefern, steigen die Fähigkeiten von Veo3 schnell an, was darauf hindeutet, dass künftig noch leistungsfähigere allgemeine visuelle Modelle entstehen könnten.

In Zukunft glaubt DeepMind, dass allgemeine Videomodelle möglicherweise spezialisierte Modelle ersetzen werden, genau wie GPT-3 im frühen Stadium schließlich zu einem mächtigen Grundmodell wurde. Mit sinkenden Kosten wird die breite Anwendung von Videogenerationsmodellen bald Realität werden und die Ankunft einer neuen Ära der Maschinenvison ankündigen.

Paper-Link: https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf