Hoy, Tencent ha lanzado oficialmente y ha hecho de código abierto la versión 1.1 del modelo WorldMirror, una nueva versión que ha realizado importantes mejoras en soporte para entradas de múltiples vistas y videos, implementación en una sola tarjeta gráfica y velocidad de generación, abriendo nuevas puertas para la popularización y aplicación de la tecnología de reconstrucción 3D.

El modelo WorldMirror 1.1, con sus poderosas funciones, se dedica a convertir la tecnología profesional de reconstrucción 3D en una herramienta fácil de usar para usuarios comunes. El modelo puede generar escenas 3D de alta calidad a partir de videos o imágenes en apenas unos segundos, mejorando significativamente la eficiencia y la facilidad de la reconstrucción 3D. Su predecesor, el modelo WorldMirror 1.0, fue lanzado en julio de este año y se convirtió en el primer modelo de mundo navegable de código abierto compatible con las líneas de producción tradicionales de CG, y la nueva versión ha logrado una reconstrucción 3D de extremo a extremo con inyección multimodal de conocimientos previos y salida unificada para múltiples tareas.

imagen

Las tres principales características del modelo incluyen el manejo flexible de diferentes entradas, predicción visual 3D general y razonamiento en segundos con una sola tarjeta gráfica. El modelo WorldMirror 1.1 utiliza un mecanismo de guía con conocimientos previos multimodales, admitiendo la inyección de información como la posición de la cámara, los parámetros internos de la cámara y mapas de profundidad, asegurando que las escenas 3D generadas sean más precisas geométricamente. Al mismo tiempo, el modelo realiza múltiples predicciones de geometría 3D como nubes de puntos, mapas de profundidad, parámetros de la cámara, normales de superficie y síntesis de nuevas perspectivas, mostrando ventajas significativas en el rendimiento.

A diferencia de los métodos tradicionales de reconstrucción 3D, el modelo WorldMirror 1.1 utiliza una arquitectura puramente de avance (feedforward), pudiendo emitir directamente todos los atributos 3D en una sola propagación hacia adelante, reduciendo significativamente el tiempo de procesamiento. Para entradas típicas de 8 a 32 vistas, el modelo completa la inferencia en solo 1 segundo, satisfaciendo así las necesidades de aplicaciones en tiempo real.

imagen

En cuanto a la arquitectura técnica, el modelo WorldMirror 1.1 utiliza una combinación de sugerencias multimodales previas y una arquitectura de predicción geométrica general, junto con una estrategia de aprendizaje por etapas, lo que permite al modelo mantener una capacidad de análisis eficiente y precisa incluso en entornos reales complejos. Mediante un mecanismo de inyección dinámica, el modelo puede responder flexiblemente a diversos tipos de conocimientos previos, mejorando la coherencia de la estructura 3D y la calidad de la reconstrucción.

Actualmente, el modelo WorldMirror 1.1 ya está disponible en GitHub, permitiendo a los desarrolladores clonar fácilmente el repositorio y realizar la implementación local. Además, los usuarios comunes también pueden probarlo en línea a través de HuggingFace Space, subiendo imágenes o videos con múltiples vistas y viendo en tiempo real las escenas 3D generadas. La publicación de esta tecnología marca un importante avance en el campo de la reconstrucción 3D, y futuramente impulsará aún más el desarrollo de industrias como la realidad virtual y el desarrollo de videojuegos.

  • Página principal del proyecto: https://3d-models.hunyuan.tencent.com/world/

  • Dirección del proyecto en GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror

  • Dirección del modelo en Hugging Face: https://huggingface.co/tencent/HunyuanWorld-Mirror