Kürzlich hat das Team von Google DeepMind in Zusammenarbeit mit der Brown University eine neue Technologie namens „Kraft-Prompting“ (deutsch: Kraft-Hinweis) entwickelt. Diese Technik ermöglicht es, realistische Bewegungseffekte zu generieren, ohne dass 3D-Modelle oder Physik-Engines benötigt werden. Dies markiert einen bedeutenden Durchbruch im Bereich der künstlichen Intelligenz für Video-Generierung.
Mit dieser Technologie können Benutzer lediglich die Richtung und Stärke einer Kraft angeben, um die Inhalten der generierten Videos zu steuern. Die Kraft-Prompting-Technik kann sowohl globale Kräfte (z.B. Wind) als auch lokale Kräfte (z.B. Schläge an bestimmten Punkten) verarbeiten. Die Eingabekräfte werden im System in Form eines Vektorfeldes verarbeitet und in natürliche, flüssige Bewegungen umgewandelt, was die Realismusqualität und dynamische Darstellung der generierten Videos stark verbessert.
Das Forscherteam basiert auf dem CogVideoX-5B-IV-Videomodell und fügt einen ControlNet-Modul hinzu, um physikalische Steuerungsdaten zu verarbeiten. Das gesamte Signal wird durch ein Transformer-Architektur zur Videogenerierung verwendet. Jeder Video besteht aus 49 Frames, wobei die Trainingszeit nur einen Tag dauerte und nur vier Nvidia A100-GPUs verwendet wurden.
Zu beachten ist, dass die Trainingsdaten vollständig synthetisch sind. Dazu gehören 15.000 Videos von Fahnen unter verschiedenen Windbedingungen, 12.000 Videos von rollenden Kugeln sowie 11.000 Videos von Blumenreaktionen bei Stößen. Diese reichhaltigen synthetischen Daten ermöglichen es dem Modell, während des Generierungsprozesses korrekte Beziehungen zwischen Kräften und Bewegungen basierend auf textuellen Beschreibungen wie „Wind“ oder „Luftblasen“ automatisch zu erstellen.
Obwohl die Menge an Trainingsdaten relativ gering ist, zeigt das Modell eine starke Generalisierungsfähigkeit, indem es sich auf neue Objekte, Materialien und Szenarien einstellt. Es lernt sogar einige einfache physikalische Regeln, wie zum Beispiel, dass leichte Objekte bei gleicher Kraft weiter als schwere Objekte bewegt werden.
Benutzer-Tests zeigen, dass die Kraft-Prompting-Technik in Bezug auf Bewegungsgüte und Realismus den rein textbasierten oder Bewegungspfad-basierten Referenzmodellen übertrifft und die Qualität sogar den auf echter physikalischer Simulation basierenden PhysDreamer übertreffen kann. Dennoch gibt es in komplexen Szenarien noch einige Schwachstellen, wie z.B. dass Rauch manchmal nicht richtig vom Wind beeinflusst wird und menschliche Arme manchmal wie Stoff erscheinen.
Demis Hassabis, CEO von DeepMind, sagte, dass nächste Generationen von AI-Videomodellen (wie Veo3) allmählich physikalische Regeln verstehen lernen und sich nicht mehr nur auf Text- oder Bildverarbeitung beschränken, sondern stattdessen die physikalische Struktur der Welt darstellen. Dies gilt als ein wichtiger Schritt in Richtung auf allgemeinere KI. Künftige KI-Systeme könnten durch Erfahrungslernen in simulierten Umgebungen kontinuierlich optimiert und verbessert werden.
Projektseite: https://force-prompting.github.io/
Hier die wichtigsten Punkte:
🌟 Neue Technologie „Kraft-Hinweis“ kann realistische Bewegungsvideos generieren, ohne 3D-Modelle oder Physik-Engines zu benötigen.
⚙️ Benutzer können durch einfache Angaben zur Kraftrichtung und -stärke natürliche, flüssige Bewegungen erreichen.
📈 Das Modell zeigt eine starke Generalisierungsfähigkeit und passt sich neuen Szenarien und Objekten an.