A tecnologia de reconstrução 3D de uma única imagem se tornou um campo de pesquisa muito comentado, graças à sua capacidade de recuperar a forma e estrutura tridimensional de objetos a partir de imagens bidimensionais. Recentemente, a plataforma de grandes modelos de código aberto famosa, Stability-AI, lançou um modelo inovador chamado SPAR3D, que atinge uma velocidade de implementação sem precedentes de 0,7 segundos, trazendo uma grande transformação para a indústria.

image.png

A reconstrução 3D de uma única imagem enfrenta muitos desafios, e as principais abordagens técnicas são os métodos baseados em regressão e os métodos de modelagem gerativa. Os métodos baseados em regressão têm eficiência alta ao inferir superfícies visíveis, mas frequentemente apresentam problemas de estimativa imprecisa de superfície e textura em regiões ocultas. Por outro lado, os métodos gerativos podem lidar melhor com regiões de incerteza, mas possuem custo computacional alto e resultados de geração alinhados pobremente com superfícies visíveis.

O SPAR3D combina as vantagens dessas duas tecnologias, evitando efetivamente suas limitações e melhorando significativamente a velocidade e a precisão da reconstrução.

A arquitetura do SPAR3D: amostragem eficiente de pontos e malha

A arquitetura do SPAR3D é composta por duas fases principais: a fase de amostragem de pontos e a fase de malha.

  1. Fase de amostragem de pontos : O núcleo dessa fase é o modelo de difusão de pontos, que gera nuvens de pontos esparsas com coordenadas XYZ e informações de cor RGB com base na imagem de entrada. Utiliza o quadro DDPM (Modelos Probabilísticos de Difusão de Remoção de Ruído), que aprende a recuperar ruído da nuvem de pontos com ruído adicionando ruído gaussiano e usando um processo inverso de remoção de ruído. Durante a inferência, utiliza o amostrador DDIM (Modelos Implícitos de Difusão de Remoção de Ruído) para gerar amostras de nuvens de pontos e melhora a fidelidade da amostragem com orientação livre de classificador (CFG).

  2. Fase de malha : O objetivo dessa fase é gerar uma malha 3D com textura a partir da imagem de entrada e da nuvem de pontos. O SPAR3D utiliza um grande Transformer de três planos, capaz de prever características de três planos a partir da imagem e da nuvem de pontos, estimando assim a forma geométrica, textura e iluminação do objeto. Durante o treinamento, usa uma renderização diferenciável com perda de renderização para supervisionar o modelo, garantindo que os resultados gerados sejam realistas e de qualidade.

Desempenho notável: superando métodos tradicionais

Na avaliação nos conjuntos de dados GSO e OmniObject3D, o SPAR3D supera significativamente os métodos básicos tradicionais de regressão e geração em vários indicadores de avaliação. Por exemplo, no conjunto de dados GSO, o valor CD (Distância de Chamfer) do SPAR3D é 0,120, FS@0,1 é 0,584 e PSNR (Relação Pico-Sinal-Ruído) é 18,6, enquanto outros métodos apresentam desempenho relativamente fraco. No conjunto de dados OmniObject3D, o SPAR3D também demonstra desempenho excelente, com um valor CD de 0,122, FS@0,1 de 0,587 e PSNR de 17,9.

Esses resultados comprovam plenamente o excelente desempenho do SPAR3D em termos de forma geométrica e qualidade da textura, mostrando seu potencial para aplicações práticas.

Conclusão: o futuro da tecnologia de código aberto

Com o avanço contínuo da tecnologia e a expansão das aplicações, o SPAR3D certamente desempenhará um papel importante no campo de visão computacional e reconstrução 3D. Para desenvolvedores e pesquisadores, a característica de código aberto do SPAR3D significa mais oportunidades de inovação e aplicação.

Endereço do código aberto: https://github.com/Stability-AI/stable-point-aware-3d

Huggingface: https://huggingface.co/stabilityai/stable-point-aware-3d