Na área da tecnologia recente, os VAE (Autoencodificadores Variacionais) estão passando por uma situação embaraçosa de serem gradualmente substituídos. Com a colaboração entre a Universidade de Tsinghua e a equipe Kuaishou, foi lançado um novo modelo de geração chamado SVG (modelo de difusão latente sem VAE). Essa inovação não apenas alcançou um aumento impressionante de 6200% na eficiência de treinamento, mas também atingiu um salto de 3500% na velocidade de geração.
A queda dos VAE na área de geração de imagens se deve principalmente ao problema de "emaranhamento semântico". Ou seja, quando tentamos mudar apenas uma característica da imagem (como a cor de um gato), outras características (como o tamanho ou a expressão) costumam ser afetadas, resultando em imagens geradas que não são precisas. Para resolver esse problema, o modelo SVG da Tsinghua e da Kuaishou adotou uma estratégia diferente, construindo ativamente um espaço de características que combina semântica e detalhes.

No design do modelo SVG, a equipe utilizou primeiro o modelo DINOv3 pré-treinado como extrator semântico. Esse modelo, treinado com aprendizado não supervisionado em grande escala, é capaz de identificar e separar efetivamente as características de diferentes categorias, resolvendo o problema de confusão semântica nos modelos VAE tradicionais. Além disso, para complementar os detalhes, a equipe desenvolveu especificamente um codificador residual leve, garantindo que as informações de detalhe não entrem em conflito com as características semânticas. A mecanismo de alinhamento de distribuição foi fundamental para reforçar a fusão dessas duas características, garantindo a alta qualidade das imagens geradas.

Os resultados experimentais mostram que o modelo SVG supera amplamente os métodos tradicionais VAE em termos de qualidade de geração e generalidade para múltiplas tarefas. No conjunto de dados ImageNet, o modelo SVG atingiu um valor FID (métrica que mede a similaridade entre imagens geradas e reais) de 6,57 após apenas 80 ciclos de treinamento, muito superior aos modelos VAE de tamanho semelhante; quanto à eficiência de inferência, o modelo SVG também demonstrou desempenho excepcional, conseguindo gerar imagens nítidas com poucos passos de amostragem. Além disso, o espaço de características do modelo SVG pode ser usado diretamente para várias tarefas visuais, como classificação de imagens e segmentação semântica, sem necessidade de ajuste fino adicional, aumentando significativamente a flexibilidade de aplicação.
A nova tecnologia da Tsinghua e da Kuaishou não só trouxe mudanças revolucionárias para a área de geração de imagens, mas também tem potencial para mostrar fortes capacidades em tarefas de geração multimodal.
Endereço do artigo: https://arxiv.org/pdf/2510.15301









