Step1X-3D, el modelo de 3D recién lanzado y abierto al público por Step星辰, marca un nuevo hito en la dirección multimodal de la empresa, extendiendo los límites de las aplicaciones de la tecnología de IA más allá de las imágenes, videos, voz y música.

Con un total de 4.8 mil millones de parámetros, incluidos 1.3 mil millones para el módulo geométrico y 3.5 mil millones para el módulo de texturas, el modelo Step1X-3D genera contenido 3D de alta fidelidad y controlable. No solo se centra en lo "atractivo visualmente", sino también en ser "práctico" y "controlable", proporcionando una poderosa y confiable herramienta técnica para la creación de contenido 3D.

Las características principales de Step1X-3D radican en su capacidad para resolver desafíos clave en la generación de contenido 3D. En términos de datos, calidad de generación y controlabilidad, este modelo ha realizado prácticas innovadoras. Primero, la optimización coordinada entre datos y algoritmos es la base del modelo. Step1X-3D ha seleccionado estrictamente y procesado más de 5 millones de datos originales, estableciendo una biblioteca de entrenamiento de 2 millones de muestras de alta calidad y estandarizadas, superando eficazmente los problemas de escasez de datos y calidad variable en la industria. Mediante técnicas como la mejora de la conversión de malla-SDF, desde la fuente se asegura la precisión del aprendizaje y la eficiencia de la generación final, aumentando un 20% la tasa de conversión de geometría hermética y dotando al Step1X-3D de una fuerte capacidad de generalización y detección de detalles.

微信截图_20250514161413.png

En segundo lugar, Step1X-3D adopta un avanzado arquitectura nativa en 3D en dos etapas, desacoplándose las representaciones geométricas y texturales, asegurando que lo generado no sea solo una "apariencia visual", sino también una estructura confiable y útil para aplicaciones downstream, evitando así distorsiones geométricas y garantizando precisión, realismo y consistencia en la generación. El núcleo de la generación geométrica reside en un innovador arquitectura híbrida VAE-DiT optimizada para propiedades 3D, responsable de generar representaciones internas TSDF, asegurando que los modelos 3D generados tengan estructuras completas sin caras rotas o puntos perdidos. Al mismo tiempo, mediante técnicas como la muestra de bordes agudos, captura y reproduce con precisión los ricos detalles geométricos del objeto. La generación de texturas se basa en el modelo SD-XL personalizado y optimizado profundamente, logrando una eficiente cooperación con el módulo geométrico a través de la guía precisa de condiciones geométricas y la tecnología de sincronización multi-vista en el espacio latente, asegurando que las texturas generadas no solo sean coloridas y realistas, sino también consistentes en múltiples vistas y ajusten perfectamente a superficies complejas tridimensionales, evitando comúnmente distorsiones y defectos de costura.

Finalmente, Step1X-3D ha mejorado significativamente la controlabilidad y facilidad de uso del contenido 3D. La arquitectura VAE-Diffusion está diseñada para mantener una alta consistencia con los modelos generativos 2D principales (como Stable Diffusion), permitiendo la introducción y aplicación de tecnologías de control 2D maduras, como el afinado ligero LoRA. Por lo tanto, los usuarios pueden realizar un ajuste directo y preciso de múltiples atributos de los activos 3D generados, como simetría y detalles de la superficie (como filudez y suavidad), asegurando que la creación coincida más precisamente con la intención del usuario.

Para evaluar objetivamente los efectos reales de Step1X-3D, Step星辰 ha sometido el modelo a una evaluación cuantitativa y cualitativa estricta mediante una prueba integral autoconstruida (conteniendo 110 casos de prueba diversificados), comparándolo además con varios modelos principales. Los resultados mostraron que en la evaluación automática, Step1X-3D destacó en varias dimensiones clave. En particular, en el índice central CLIP-Score que mide la consistencia semántica del contenido con la entrada, Step1X-3D obtuvo la puntuación más alta entre todos los modelos comparados, proporcionando a la comunidad open source una solución competitiva para la generación 3D.

GitHub:

https://github.com/stepfun-ai/Step1X-3D

HuggingFace:

https://huggingface.co/stepfun-ai/Step1X-3D

ModelScope:

https://www.modelscope.cn/models/stepfun-ai/Step1X-3D