A equipe Seed da ByteDance anunciou recentemente o lançamento do modelo de geração 3D Seed3D 1.0, que é capaz de gerar modelos 3D de alta qualidade com simulação realista a partir de uma única imagem, incluindo geometria detalhada, texturas realistas e materiais baseados em renderização física (PBR). Essa inovação promete fornecer suporte poderoso para o desenvolvimento de inteligência corporal, resolvendo os problemas atuais relacionados à capacidade de interação física e à diversidade de conteúdo.
Na fase de desenvolvimento, a equipe Seed coletou e processou grandes quantidades de dados 3D de alta qualidade, construindo uma linha de produção de dados completa em três etapas, convertendo grandes volumes de dados 3D heterogêneos em um conjunto de treinamento de alta qualidade. O Seed3D 1.0 utiliza um modelo baseado na arquitetura Diffusion Transformer, utilizando uma abordagem de ponta a ponta para gerar rapidamente modelos 3D de simulação a partir de uma única imagem. O modelo se destaca na geração de geometria, podendo construir com precisão detalhes estruturais e garantir a integridade física; na geração de texturas, por meio de uma arquitetura Diffusion Transformer multimodal, garante consistência entre diferentes perspectivas; e na geração de materiais PBR, utiliza um quadro de estimativa que melhora a precisão da estimativa dos materiais.
O desempenho do Seed3D 1.0 apresenta vantagens significativas em várias avaliações comparativas. Na geração de geometria, o Seed3D 1.0 com 1,5B de parâmetros supera modelos com 3B de parâmetros da indústria, sendo capaz de reproduzir com mais precisão as características finas de objetos complexos. Na geração de texturas e materiais, o Seed3D 1.0 se destaca na preservação das imagens de referência, especialmente nas gerações de texto fino e de pessoas. Resultados de avaliação humana mostram que o Seed3D 1.0 obteve boas notas em vários aspectos, como qualidade da geometria, texturas e materiais, clareza visual e riqueza de detalhes.
O Seed3D 1.0 não apenas é capaz de gerar modelos 3D de objetos únicos, mas também pode construir cenas 3D completas por meio de estratégias de geração em etapas. Os modelos 3D gerados podem ser importados sem emenda em motores de simulação como o Isaac Sim, requerendo apenas pequenos ajustes para apoiar o treinamento de grandes modelos de inteligência corporal. Essa capacidade fornece cenários de operação diversificados para o treinamento de robôs, permitindo aprendizado interativo e estabelecendo uma base de avaliação abrangente para modelos de visão-linguagem-ação.
Ainda que o Seed3D 1.0 tenha demonstrado bom desempenho na geração de modelos e cenários 3D, a equipe Seed também reconhece que ainda há desafios para montar um modelo do mundo com base no grande modelo de geração 3D, como a necessidade de melhorar a precisão da geração e a generalização. No futuro, a equipe pretende introduzir modelos de linguagem multimodal grandes (MLLM) para melhorar a qualidade e robustez da geração 3D e promover a aplicação em larga escala dos modelos de geração 3D nos simuladores de mundo.
Página do projeto:
https://seed.bytedance.com/seed3d
Entrada de experiência:
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D