Nanyang Technological University und Peking University kooperieren bei der Einführung des Open-Source-Langzeitgedächtnis-Weltenmodells WORLDMEM zur Verbesserung der Konsistenz virtueller Szenen

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Jul 22, 2025

19.9k

Kürzlich haben Forscher der Nanyang Technological University, des Institute of Computer Technology der Peking University und des Shanghai Artificial Intelligence Lab eine neue Open-Source-Modell namens „WORLDMEM“ veröffentlicht. Das neue Modell zielt darauf ab, Probleme der langfristigen Konsistenz in virtuellen Umgebungen zu lösen, insbesondere bei Veränderungen der Perspektive oder dem Zeitverlauf, wodurch die Kohärenz des 3D-Raums aufrechterhalten wird und die Benutzererfahrung erheblich verbessert wird.

Das zentrale Merkmal von WORLDMEM ist seine innovative Gedächtnismechanismus. Dieser Mechanismus erstellt eine Datenbank mit mehreren Gedächtnis-Einheiten, wobei jede Einheit Szeneninformationen und Zustandsdaten für bestimmte Zeiten speichert. Durch diesen Mechanismus kann das Modell effektiv Informationen aus vorherigen Beobachtungen der Szene extrahieren und bei Änderungen der Perspektive oder des Zeitpunkts präzise Szenen neu erstellen. Dies überwindet die Einschränkungen traditioneller Methoden, die sich auf kurze Kontextfenster beschränken, und ermöglicht es, Umweltdetails langfristig zu erhalten.

Bei der Generierung neuer Szenen kann der Gedächtnismechanismus von WORLDMEM schnell relevante Informationen aus der umfangreichen Gedächtnisdatenbank herausfiltern. Dieser Prozess beinhaltet komplexe Schlussfolgerungen und Abgleiche, um sicherzustellen, dass die extrahierten Informationen mit dem aktuellen Zeitpunkt, der Perspektive und dem Szenenstatus übereinstimmen. Zum Beispiel, wenn ein virtueller Charakter sich in der Umgebung bewegt und an seinen ursprünglichen Ort zurückkehrt, kann das Modell schnell frühere Gedächtnisbilder finden, um die Kohärenz und Konsistenz der Szene sicherzustellen.

Darüber hinaus verfügt WORLDMEM über die Fähigkeit zur dynamischen Aktualisierung. Mit der Entwicklung der virtuellen Welt werden ständig neue Szenen und Informationen zur Gedächtnisdatenbank hinzugefügt. Diese Eigenschaft gewährleistet, dass das Modell den aktuellen Umweltzustand genau dokumentiert und somit die Qualität der Szenenerzeugung verbessert. Das Modell verwendet eine Architektur basierend auf bedingten Diffusions-Transformern, die externe Aktionssignale integrieren können, um die Erzeugung einer First-Person-Perspektive im virtuellen Raum zu ermöglichen, wodurch Charaktere flexibel im virtuellen Umfeld navigieren und interagieren können.

WORLDMEM nutzt auch eine Technik namens „Diffusion Forcing“ zum Training, was es dem Modell ermöglicht, über einen längeren Zeitraum hinweg Simulationen durchzuführen. Diese Trainingsmethode sorgt für die Kohärenz der Szenenerzeugung und ermöglicht es dem Modell, effizient auf verschiedene Aktionen und Szenenveränderungen zu reagieren. Durch die Projektion von Aktionssignalen in den Einbettungsraum und die Kombination mit de-noising-Zeitschritten wird die Reaktionsfähigkeit des Modells auf Aktionssignale verbessert.

Die Veröffentlichung von WORLDMEM markiert einen wichtigen Fortschritt in der Technologie der virtuellen Umgebungsmodellierung und bietet starke Unterstützung für zukünftige Anwendungen im Bereich Virtual Reality.

Open-Source-Adresse: https://github.com/xizaoqu/WorldMem

Hauptpunkte:
🌍 WORLDMEM ist ein Open-Source-Modell mit langer Erinnerung, das darauf abzielt, die Konsistenz und Kohärenz in virtuellen Umgebungen zu verbessern.
🔍 Der zentrale Gedächtnismechanismus des Modells kann Szeneninformationen effektiv speichern und extrahieren und überwindet dadurch die Einschränkungen traditioneller Methoden.
🔄 WORLDMEM verfügt über die Fähigkeit zur dynamischen Aktualisierung und optimiert kontinuierlich die Qualität der Szenenerzeugung, je nach Umweltveränderungen.

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Nanyang Technological University und Peking University kooperieren bei der Einführung des Open-Source-Langzeitgedächtnis-Weltenmodells WORLDMEM zur Verbesserung der Konsistenz virtueller Szenen

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht