O modelo de geração de imagens a partir de texto da Tencent, HunYuanDiT, recebeu recentemente uma atualização, lançando uma versão com 6G de memória de vídeo, permitindo que usuários de computadores pessoais o executem facilmente. Esta versão é compatível com plugins como LoRA e ControlNet na biblioteca Diffusers, e adiciona suporte à interface gráfica Kohya, reduzindo a barreira para desenvolvedores treinarem modelos LoRA personalizados. O modelo HunYuanDiT foi atualizado para a versão 1.2, com melhorias na qualidade da imagem e na composição.

Ao mesmo tempo, a Tencent também lançou o modelo de rotulagem de imagens HunYuan Captioner, um modelo de código aberto que suporta chinês e inglês e foi otimizado para cenários de geração de imagens a partir de texto. Ele consegue entender melhor o significado em chinês, gerando descrições de imagens estruturadas, completas e precisas. Também identifica pessoas e marcos famosos, permitindo que desenvolvedores adicionem conhecimento de fundo personalizado.

微信截图_20240705081554.png

Além disso, o lançamento do modelo HunYuan Captioner permite que pesquisadores e anotadores de dados de geração de imagens em todo o mundo melhorem a qualidade da descrição de imagens, gerando descrições mais completas e precisas, melhorando o desempenho do modelo. Os conjuntos de dados gerados podem ser usados para treinar modelos baseados no HunYuanDiT, bem como outros modelos de visão computacional.

As três principais atualizações do modelo HunYuanDiT incluem o lançamento de uma versão com baixo consumo de memória de vídeo, a integração da interface de treinamento Kohya e a atualização do modelo para a versão 1.2. Essas melhorias reduzem ainda mais a barreira de entrada e melhoram a qualidade da imagem. O modelo HunYuanDiT gera imagens com melhor qualidade, mas a alta demanda por memória de vídeo anteriormente impedia muitos desenvolvedores. Agora, com a versão de baixo consumo de memória de vídeo, apenas 6G são necessários para execução, e em colaboração com o Hugging Face, a versão e os plugins relevantes foram adaptados à biblioteca Diffusers, simplificando o custo de uso.

Kohya é um serviço de treinamento de ajuste fino de modelos leves de código aberto, que fornece uma interface gráfica e é amplamente utilizado para o treinamento de modelos de geração de imagens a partir de texto baseados em modelos de difusão. Os usuários podem usar o Kohya para realizar o ajuste fino de todos os parâmetros do modelo e o treinamento LoRA sem escrever código.

O modelo HunYuan Captioner, através da construção de um sistema de descrição de imagens estruturado e do aprimoramento da completude da descrição através de múltiplas fontes, incorpora um grande volume de conhecimento de fundo, resultando em descrições mais precisas e completas. Essas otimizações tornaram o HunYuanDiT um dos modelos de código aberto DiT nacionais mais populares, com mais de 2,6 mil estrelas no Github.

Site oficial

https://dit.hunyuan.tencent.com/

Código

https://github.com/Tencent/HunyuanDiT

Modelo

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Artigo

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf