Forscher der Hong Kong University of Science and Technology und der University of Science and Technology of China haben kürzlich das GameGen-X-Modell vorgestellt, ein Diffusions-Transformer-Modell, das speziell für die Generierung und interaktive Steuerung von Open-World-Spielvideos entwickelt wurde.
GameGen-X kann selbstständig Open-World-Spielvideos generieren und simuliert verschiedene Funktionen von Spiel-Engines, einschließlich der Generierung innovativer Charaktere, dynamischer Umgebungen, komplexer Aktionen und vielfältiger Ereignisse. Es ermöglicht Ihnen außerdem die Interaktion und bietet Ihnen das Erlebnis, ein Spieleentwickler zu sein.

Ein besonderes Highlight von GameGen-X ist seine interaktive Steuerbarkeit. Es kann zukünftige Inhalte basierend auf dem aktuellen Spielabschnitt vorhersagen und verändern, um so die Simulation des Spielverlaufs zu ermöglichen.
Benutzer können die generierten Inhalte über multimodale Steuersignale wie strukturierte Textanweisungen und Tastatursteuerung beeinflussen und so die Interaktion der Charaktere und die Szeneninhalte steuern.
Um GameGen-X zu trainieren, haben die Forscher den ersten großen Datensatz für Open-World-Spielvideos, OGameData, erstellt. Dieser Datensatz enthält über 1 Million verschiedener Spielvideo-Abschnitte aus über 150 Spielen und wurde mit GPT-4o mit informativen Textbeschreibungen versehen.
Der Trainingsprozess von GameGen-X besteht aus zwei Phasen: dem Pretraining des Basismodells und dem Instruktions-Feintuning. In der ersten Phase wird das Modell durch Text-zu-Video-Generierung und Video-Fortsetzungsaufgaben vortrainiert, um qualitativ hochwertige, lange Sequenzen von Open-World-Spielvideos zu generieren.
In der zweiten Phase wurde zur Erreichung der interaktiven Steuerbarkeit das InstructNet-Modul entwickelt, welches Experten für spielbezogene multimodale Steuersignale integriert.
InstructNet ermöglicht es dem Modell, die latente Darstellung basierend auf Benutzereingaben anzupassen und vereinheitlicht damit erstmals in der Videogenerierung die Interaktion von Charakteren und die Steuerung von Szeneninhalten. Während des Instruktions-Feintunings wurde nur InstructNet aktualisiert, während das vortrainierte Basismodell eingefroren wurde. Dies ermöglicht es dem Modell, interaktive Steuerbarkeit zu integrieren, ohne die Vielfalt und Qualität der generierten Videoinhalte zu beeinträchtigen.
Die Ergebnisse zeigen, dass GameGen-X hervorragende Leistungen bei der Generierung hochwertiger Spielinhalte erbringt und eine ausgezeichnete Steuerung von Umgebung und Charakteren bietet, die besser ist als bei anderen Open-Source- und kommerziellen Modellen.
Natürlich befindet sich diese KI noch im Anfangsstadium und es ist noch ein langer Weg, bis sie Spieleentwickler tatsächlich ersetzen kann. Ihr Erscheinen bietet jedoch zweifellos neue Möglichkeiten für die Spieleentwicklung. Es bietet eine neue Methode für das Design und die Entwicklung von Spielinhalten und zeigt das Potenzial von generativen Modellen als Hilfsmittel für traditionelle Rendering-Techniken. Es verbindet effektiv kreative Generierung mit interaktiven Funktionen und eröffnet neue Möglichkeiten für die zukünftige Spieleentwicklung.
Projektseite: https://gamegen-x.github.io/



