Diese Pipeline nutzt die Generierungskraft von 2D-Diffusionsmodellen und die selbstkorrigierende Prompt-Funktion, um Panoramabilder als anfängliche „flache“ (2D) Szenendarstellung zu erstellen. Anschließend wird dieses Bild mittels Schnitztechniken zu einer 3D-Gaußfunktion aufgewertet, um eine Echtzeit-Exploration zu ermöglichen. Um eine konsistente 3D-Geometrie zu erzeugen, konstruiert die Pipeline eine räumlich konsistente Struktur, indem die Tiefeninformation aus einer Einzelbildperspektive als global optimierte Punktwolke aufgebaut wird. Diese Punktwolke dient als Ausgangszustand für die 3D-Gaußfunktion und hilft, durch den monokularen Input bedingte Okklusionsprobleme zu lösen. Durch die Anwendung semantischer und geometrischer Einschränkungen auf die synthetisierten und eingegebenen Kameraperspektiven steuert die Pipeline die Optimierung der Gaußfunktion, um unsichtbare Bereiche zu rekonstruieren. Insgesamt bietet die Methode eine global konsistente 3D-Szene mit einem 360°-Blickfeld und bietet im Vergleich zum Stand der Technik ein verbessertes und kostenloses Erlebnis.