Kürzlich haben Forscher der Nanyang Technological University, des Institute of Computer Technology der Peking University und des Shanghai Artificial Intelligence Lab eine neue Open-Source-Modell namens „WORLDMEM“ veröffentlicht. Das neue Modell zielt darauf ab, Probleme der langfristigen Konsistenz in virtuellen Umgebungen zu lösen, insbesondere bei Veränderungen der Perspektive oder dem Zeitverlauf, wodurch die Kohärenz des 3D-Raums aufrechterhalten wird und die Benutzererfahrung erheblich verbessert wird.

image.png

Das zentrale Merkmal von WORLDMEM ist seine innovative Gedächtnismechanismus. Dieser Mechanismus erstellt eine Datenbank mit mehreren Gedächtnis-Einheiten, wobei jede Einheit Szeneninformationen und Zustandsdaten für bestimmte Zeiten speichert. Durch diesen Mechanismus kann das Modell effektiv Informationen aus vorherigen Beobachtungen der Szene extrahieren und bei Änderungen der Perspektive oder des Zeitpunkts präzise Szenen neu erstellen. Dies überwindet die Einschränkungen traditioneller Methoden, die sich auf kurze Kontextfenster beschränken, und ermöglicht es, Umweltdetails langfristig zu erhalten.

Bei der Generierung neuer Szenen kann der Gedächtnismechanismus von WORLDMEM schnell relevante Informationen aus der umfangreichen Gedächtnisdatenbank herausfiltern. Dieser Prozess beinhaltet komplexe Schlussfolgerungen und Abgleiche, um sicherzustellen, dass die extrahierten Informationen mit dem aktuellen Zeitpunkt, der Perspektive und dem Szenenstatus übereinstimmen. Zum Beispiel, wenn ein virtueller Charakter sich in der Umgebung bewegt und an seinen ursprünglichen Ort zurückkehrt, kann das Modell schnell frühere Gedächtnisbilder finden, um die Kohärenz und Konsistenz der Szene sicherzustellen.

Darüber hinaus verfügt WORLDMEM über die Fähigkeit zur dynamischen Aktualisierung. Mit der Entwicklung der virtuellen Welt werden ständig neue Szenen und Informationen zur Gedächtnisdatenbank hinzugefügt. Diese Eigenschaft gewährleistet, dass das Modell den aktuellen Umweltzustand genau dokumentiert und somit die Qualität der Szenenerzeugung verbessert. Das Modell verwendet eine Architektur basierend auf bedingten Diffusions-Transformern, die externe Aktionssignale integrieren können, um die Erzeugung einer First-Person-Perspektive im virtuellen Raum zu ermöglichen, wodurch Charaktere flexibel im virtuellen Umfeld navigieren und interagieren können.

WORLDMEM nutzt auch eine Technik namens „Diffusion Forcing“ zum Training, was es dem Modell ermöglicht, über einen längeren Zeitraum hinweg Simulationen durchzuführen. Diese Trainingsmethode sorgt für die Kohärenz der Szenenerzeugung und ermöglicht es dem Modell, effizient auf verschiedene Aktionen und Szenenveränderungen zu reagieren. Durch die Projektion von Aktionssignalen in den Einbettungsraum und die Kombination mit de-noising-Zeitschritten wird die Reaktionsfähigkeit des Modells auf Aktionssignale verbessert.

Die Veröffentlichung von WORLDMEM markiert einen wichtigen Fortschritt in der Technologie der virtuellen Umgebungsmodellierung und bietet starke Unterstützung für zukünftige Anwendungen im Bereich Virtual Reality.

Open-Source-Adresse: https://github.com/xizaoqu/WorldMem

Hauptpunkte:

🌍 WORLDMEM ist ein Open-Source-Modell mit langer Erinnerung, das darauf abzielt, die Konsistenz und Kohärenz in virtuellen Umgebungen zu verbessern.

🔍 Der zentrale Gedächtnismechanismus des Modells kann Szeneninformationen effektiv speichern und extrahieren und überwindet dadurch die Einschränkungen traditioneller Methoden.

🔄 WORLDMEM verfügt über die Fähigkeit zur dynamischen Aktualisierung und optimiert kontinuierlich die Qualität der Szenenerzeugung, je nach Umweltveränderungen.