Recientemente, investigadores de la Universidad de Stanford y el MIT han desarrollado conjuntamente un sistema de IA llamado WonderWorld, capaz de generar escenas 3D en tiempo real a partir de una sola imagen. Esta nueva tecnología permite a los usuarios construir y explorar entornos virtuales de forma gradual, controlando fácilmente el contenido y la disposición de la escena generada.

El mayor desafío de WonderWorld radica en la rápida generación de escenas 3D. Los métodos anteriores solían tardar de minutos a horas en generar una escena, mientras que WonderWorld puede generar un nuevo entorno 3D en tan solo 10 segundos en una GPU Nvidia A6000. Esta velocidad permite la interacción en tiempo real, marcando un gran avance en el campo.

WonderWorld funciona a partir de una imagen de entrada para generar una escena 3D preliminar. Luego, el sistema entra en un bucle, alternando la generación de imágenes de la escena y las correspondientes representaciones FLAGS. Los usuarios pueden controlar la generación de nuevas escenas moviendo la cámara y especificando el tipo de escena deseado mediante entrada de texto.

image.png

Cabe destacar que la representación FLAGS consta de tres niveles: primer plano, fondo y cielo. Cada nivel contiene un conjunto de elementos llamados "surfels", que se definen según su posición 3D, orientación, escala, transparencia y color. Estos surfels se inicializan mediante la estimación de mapas de profundidad y normales, y luego se optimizan para crear la escena final.

Para reducir la distorsión geométrica durante la transición de escenas, WonderWorld emplea un proceso de difusión de profundidad guiada. Este método utiliza un modelo de difusión de mapas de profundidad preentrenado para ajustar la estimación de profundidad y que coincida con la geometría de las partes existentes de la escena.

Los experimentos muestran que WonderWorld supera significativamente a los métodos anteriores de generación de escenas 3D en velocidad y calidad visual. En estudios con usuarios, las escenas generadas se consideraron visualmente más convincentes que las generadas por otros métodos.

Aunque WonderWorld es significativamente superior a los métodos anteriores en velocidad y calidad visual, todavía presenta algunas limitaciones. Por ejemplo, solo puede crear superficies frontales, lo que limita el ángulo de movimiento del usuario en el mundo virtual a aproximadamente 45 grados. Además, los mundos generados actualmente parecen siluetas de papel, y pueden aparecer elementos "huecos" o "flotantes" al procesar objetos detallados como árboles.

A pesar de estas limitaciones, los investigadores confían en el potencial de WonderWorld, especialmente en el desarrollo de juegos, la realidad virtual y la creación de mundos virtuales dinámicos. La evaluación de los usuarios en la investigación, donde las escenas generadas fueron calificadas como visualmente más convincentes, muestra las amplias perspectivas de aplicación de esta tecnología.

Enlace al proyecto: https://kovenyu.com/wonderworld/

Puntos clave:

🌟 WonderWorld AI puede generar escenas 3D en tiempo real con solo una foto, en tan solo 10 segundos.

🎮 El sistema permite a los usuarios controlar el contenido y la disposición de la escena, lo que lo hace adecuado para el desarrollo de juegos y aplicaciones de realidad virtual.

🚧 La tecnología actual presenta algunas limitaciones, principalmente la generación de solo superficies frontales y la falta de detalle en el procesamiento.