El equipo Seed de ByteDance anunció recientemente la puesta en marcha del modelo de generación 3D de gran tamaño Seed3D 1.0, que puede generar modelos 3D de alta calidad desde una sola imagen de extremo a extremo, incluyendo geometría detallada, texturas reales y materiales basados en renderizado físico (PBR). Este avance promete proporcionar un poderoso simulador del mundo para el desarrollo de la inteligencia corporal, resolviendo los cuellos de botella en las capacidades de interacción física y la diversidad de contenido en la tecnología actual.
En el proceso de desarrollo, el equipo Seed recopiló y procesó grandes cantidades de datos 3D de alta calidad, construyendo una línea de procesamiento de datos completa en tres etapas, convirtiendo así grandes volúmenes de datos 3D heterogéneos en conjuntos de entrenamiento de alta calidad. Seed3D 1.0 utiliza un modelo basado en la arquitectura Diffusion Transformer, logrando una generación rápida de modelos 3D de simulación desde una sola imagen mediante una ruta técnica de extremo a extremo. El modelo muestra un buen desempeño en la generación de geometría, permitiendo construir con precisión detalles estructurales y garantizando la integridad física; en la generación de mapas de textura, mediante una arquitectura Diffusion Transformer multimodal, se asegura la coherencia entre diferentes perspectivas; en la generación de materiales PBR, se utiliza un marco de estimación, mejorando la precisión de la estimación de materiales.
Las capacidades de generación de Seed3D 1.0 muestran ventajas significativas en diversos análisis comparativos. En la generación de geometría, Seed3D 1.0 con 1,5 mil millones de parámetros supera a los modelos de 3 mil millones de parámetros de la industria, permitiendo reproducir con mayor precisión las características finas de objetos complejos. En la generación de texturas y materiales, Seed3D 1.0 muestra un buen desempeño en la preservación de imágenes de referencia, especialmente destacando en la generación de texto fino y en la generación de personas. Los resultados de evaluación humana muestran que Seed3D 1.0 obtiene buenos puntajes en varios aspectos como la calidad de la geometría, las texturas y materiales, la claridad visual y la riqueza de detalles.
Seed3D 1.0 no solo puede generar modelos 3D de objetos individuales, sino que también puede construir escenas 3D completas mediante estrategias de generación paso a paso. Los modelos 3D generados pueden importarse sin problemas a motores de simulación como Isaac Sim, y solo requieren un pequeño trabajo de adaptación para apoyar el entrenamiento de grandes modelos de inteligencia corporal. Esta capacidad proporciona escenarios de operación diversificados para el entrenamiento de robots, permitiendo el aprendizaje interactivo y estableciendo una base completa para la evaluación de modelos de visión-lenguaje-acción.
Aunque Seed3D 1.0 muestra un buen rendimiento en la generación de modelos y escenas en 3D, el equipo Seed también ha reconocido que aún enfrentan desafíos como mejorar la precisión de la generación y la generalización al construir un modelo del mundo basado en modelos de generación 3D de gran tamaño. En el futuro, el equipo intentará incorporar modelos de lenguaje de gran tamaño multimodales (MLLM) para mejorar la calidad y robustez de la generación 3D y promover la aplicación a gran escala de los modelos de generación 3D en simuladores del mundo.
Página del proyecto:
https://seed.bytedance.com/seed3d
Entrada de experiencia:
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D