O SceneWiz3D é um método inovador para sintetizar cenas 3D de alta fidelidade a partir de texto. Ele emprega uma representação 3D híbrida, com representação explícita para objetos e representação implícita para a cena. Os objetos podem ser gerados por meio de métodos tradicionais de texto para 3D ou fornecidos pelo próprio usuário. Para configurar o layout da cena e posicionar automaticamente os objetos, aplicamos a técnica de otimização por enxame de partículas. Além disso, em cenários de texto para cena, é difícil obter supervisão multi-visão para algumas partes da cena (por exemplo, cantos, oclusões), resultando em geometria de baixa qualidade. Para mitigar essa falta de supervisão, introduzimos um modelo de difusão panorâmica RGBD como um prior para alcançar geometria de alta qualidade. Avaliações abrangentes demonstram que nosso método alcança qualidade superior em comparação com métodos anteriores, gerando cenas 3D detalhadas e consistentes em perspectiva.