A Stepfun Stars lançou oficialmente e disponibilizou gratuitamente o modelo de grande escala 3D Step1X-3D. Esse lançamento marca os mais recentes avanços da Stepfun Stars em direção à multimodalidade, expandindo ainda mais as fronteiras das aplicações da tecnologia de IA após suas realizações anteriores com imagens, vídeos, áudio e música.

O modelo Step1X-3D possui um total de 4,8 bilhões de parâmetros, incluindo 1,3 bilhão para o módulo geométrico e 3,5 bilhões para o módulo textural. Baseado em uma sólida base de dados e arquitetura nativa 3D, este modelo pode gerar conteúdo 3D de alta fidelidade e controlável. Além de buscar aspectos visuais atraentes, o Step1X-3D também se concentra na usabilidade e controle, oferecendo um motor técnico poderoso e confiável para a criação de conteúdo 3D.

As principais características do Step1X-3D residem na resolução de desafios críticos na geração de conteúdo 3D. O modelo inova em termos de dados, qualidade de geração e controllabilidade. Primeiramente, a otimização conjunta de dados e algoritmos constitui a base do modelo. O Step1X-3D selecionou rigorosamente mais de 5 milhões de dados brutos e criou uma biblioteca de treinamento com 2 milhões de amostras de alta qualidade e padronizadas, superando os gargalos de escassez e variabilidade de qualidade no setor. Com técnicas como a conversão aprimorada de malha-SDF, garantindo precisão no aprendizado do modelo e eficiência na geração final, aumentando a taxa de sucesso na conversão de geometria fechada em 20% e dotando o modelo de uma forte capacidade generalista e detalhista.

captura_de_tela_20250514161413.png

Em segundo lugar, o Step1X-3D utiliza uma arquitetura nativa 3D de duas etapas, dissociando representações geométricas e texturais, garantindo que a geração não seja apenas esteticamente atraente, mas também estruturalmente confiável e aplicável a usos downstream. Isso evita distorções geométricas, mantendo a precisão, realismo e consistência da geração. O núcleo da geração geométrica é baseado em uma arquitetura híbrida inovadora de VAE-DiT profundamente otimizada para características 3D, responsável pela representação interna do TSDF, garantindo que os modelos 3D gerados sejam completos sem falhas ou pontos ausentes. Além disso, a introdução de técnicas como amostragem de bordas nítidas captura e reproduz com precisão os detalhes geométricos ricos dos objetos. A geração textural, por outro lado, é personalizada e otimizada com base no poderoso modelo SD-XL. Através de orientação precisa condicionada por geometria e tecnologias de sincronização de espaço latente em múltiplas vistas, garante-se uma cooperação eficiente entre os módulos geométricos, resultando em texturas não apenas coloridas e realistas, mas também consistentes em múltiplas vistas e bem ajustadas às superfícies tridimensionais complexas, evitando distorções e defeitos de costura comuns.

Por fim, o Step1X-3D melhorou significativamente a controllabilidade e usabilidade da geração de conteúdo 3D. A arquitetura geral VAE-Diffusion foi projetada para manter alta compatibilidade com modelos de geração 2D populares (como o Stable Diffusion), permitindo a adoção fácil de técnicas de controle maduros de 2D, como o ajuste leve LoRA. Assim, os usuários podem regular de forma intuitiva e precisa várias propriedades dos ativos 3D gerados, como simetria e detalhes de superfície (como nitidez e suavidade), tornando a criação mais alinhada com a intenção do usuário.

Para avaliar objetivamente o desempenho do Step1X-3D, a Stepfun Stars realizou uma avaliação rigorosa, tanto quantitativa quanto qualitativa, utilizando um conjunto de testes composto por 110 casos de teste diversificados, comparando-o com vários modelos líderes do mercado. Os resultados mostraram que, em avaliações automáticas, o Step1X-3D se destacou em várias dimensões-chave. Especificamente, no principal indicador CLIP-Score, que mede a consistência semântica do conteúdo com a entrada, o Step1X-3D alcançou a pontuação mais alta entre todos os modelos comparados, fornecendo à comunidade open source uma solução competitiva para geração 3D.

GitHub:

https://github.com/stepfun-ai/Step1X-3D

HuggingFace:

https://huggingface.co/stepfun-ai/Step1X-3D

ModelScope:

https://www.modelscope.cn/models/stepfun-ai/Step1X-3D