Versão de baixa memória do modelo de imagem de IA da Tencent, HunYuan DiT 6G, lançada; HunYuan Captioner de código aberto

AIbase

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Jul 5, 2024

358

O modelo de geração de imagens a partir de texto da Tencent, HunYuanDiT, recebeu recentemente uma atualização, lançando uma versão com 6G de memória de vídeo, permitindo que usuários de computadores pessoais o executem facilmente. Esta versão é compatível com plugins como LoRA e ControlNet na biblioteca Diffusers, e adiciona suporte à interface gráfica Kohya, reduzindo a barreira para desenvolvedores treinarem modelos LoRA personalizados. O modelo HunYuanDiT foi atualizado para a versão 1.2, com melhorias na qualidade da imagem e na composição.

Ao mesmo tempo, a Tencent também lançou o modelo de rotulagem de imagens HunYuan Captioner, um modelo de código aberto que suporta chinês e inglês e foi otimizado para cenários de geração de imagens a partir de texto. Ele consegue entender melhor o significado em chinês, gerando descrições de imagens estruturadas, completas e precisas. Também identifica pessoas e marcos famosos, permitindo que desenvolvedores adicionem conhecimento de fundo personalizado.

微信截图_20240705081554.png

Além disso, o lançamento do modelo HunYuan Captioner permite que pesquisadores e anotadores de dados de geração de imagens em todo o mundo melhorem a qualidade da descrição de imagens, gerando descrições mais completas e precisas, melhorando o desempenho do modelo. Os conjuntos de dados gerados podem ser usados para treinar modelos baseados no HunYuanDiT, bem como outros modelos de visão computacional.

As três principais atualizações do modelo HunYuanDiT incluem o lançamento de uma versão com baixo consumo de memória de vídeo, a integração da interface de treinamento Kohya e a atualização do modelo para a versão 1.2. Essas melhorias reduzem ainda mais a barreira de entrada e melhoram a qualidade da imagem. O modelo HunYuanDiT gera imagens com melhor qualidade, mas a alta demanda por memória de vídeo anteriormente impedia muitos desenvolvedores. Agora, com a versão de baixo consumo de memória de vídeo, apenas 6G são necessários para execução, e em colaboração com o Hugging Face, a versão e os plugins relevantes foram adaptados à biblioteca Diffusers, simplificando o custo de uso.

Kohya é um serviço de treinamento de ajuste fino de modelos leves de código aberto, que fornece uma interface gráfica e é amplamente utilizado para o treinamento de modelos de geração de imagens a partir de texto baseados em modelos de difusão. Os usuários podem usar o Kohya para realizar o ajuste fino de todos os parâmetros do modelo e o treinamento LoRA sem escrever código.

O modelo HunYuan Captioner, através da construção de um sistema de descrição de imagens estruturado e do aprimoramento da completude da descrição através de múltiplas fontes, incorpora um grande volume de conhecimento de fundo, resultando em descrições mais precisas e completas. Essas otimizações tornaram o HunYuanDiT um dos modelos de código aberto DiT nacionais mais populares, com mais de 2,6 mil estrelas no Github.

Site oficial

https://dit.hunyuan.tencent.com/

Código

https://github.com/Tencent/HunyuanDiT

Modelo

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Artigo

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

Difusão DiT LoRA ControlNet Captioner de Difusão

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Amazon planeja testar robôs humanóides para explorar a automatização do entrega de pacotes

Recentemente, a Amazon está desenvolvendo um software de robô humanoide específico para entregas de pacotes, visando implementar aos poucos a automação desse trabalho. Este plano marca um passo importante da Amazon em sua busca por maior eficiência logística. De acordo com informações confidenciais, esse robô será capaz de realizar parte das atividades atualmente realizadas pelos entregadores humanos, especialmente no transporte e entrega de pacotes. Com o crescimento contínuo do comércio eletrônico, a demanda por entregas de pacotes também aumentou. Como uma das maiores varejistas online do mundo, a Amazon está buscando ativamente soluções inovadoras para atender...

Jun 5, 2025

Anthropic lança o projeto de blog Claude Explains, explorando um novo modelo de colaboração entre IA e especialistas humanos

A empresa de tecnologia Anthropic lançou silenciosamente um projeto de blog chamado Claude Explains, com a intenção de demonstrar as capacidades do modelo de IA (Inteligência Artificial) Claude na criação de conteúdo. O conteúdo do blog é gerado principalmente pela IA Claude, editado e melhorado por uma equipe de especialistas humanos, abrangendo diversos temas técnicos. Alega-se que o conteúdo do blog Claude Explains não é apenas uma geração automática da IA, mas passa por uma série de fluxos de edição rigorosos.

Jun 4, 2025

40 milissegundos para gerar um mundo! Odyssey AI vídeo interativo explode no Web4.0, experimente gratuitamente e se torne um explorador virtual em segundos!

May 29, 2025

Google Search lança modo AI Experimento para explorar nova experiência de perguntas inteligentes

May 19, 2025

Meta lança o modelo WebSSL: Uma nova exploração no aprendizado visual sem linguagem

Na área da inteligência artificial, a Meta recentemente lançou a série de modelos WebSSL. Esses modelos variam em tamanho de parâmetros, de 300 milhões a 7 bilhões, e são treinados com base em dados de imagem pura, com o objetivo de explorar o enorme potencial do aprendizado visual autossupervisionado (SSL) sem linguagem. Esta nova pesquisa traz novas possibilidades para tarefas multimodais futuras e oferece uma nova perspectiva sobre como entendemos o aprendizado de representações visuais. Anteriormente, o modelo CLIP da OpenAI se destacou por suas capacidades em perguntas e respostas visuais (VQA) e compreensão de documentos, entre outras tarefas multimodais.

Apr 25, 2025

OpenAI impulsiona a revolução da IA na educação: explorando novos modelos de ensino inteligente

Apr 18, 2025

XPeng explora tecnologia de mapeamento crowdsourced, mas a empresa reafirma seu compromisso com a rota de modelos grandes sem mapas

Recentemente, surgiram notícias de que a XPeng está ativamente desenvolvendo internamente uma nova tecnologia chamada "Mapeamento de Origens Múltiplas", com o objetivo de fornecer suporte de navegação mais preciso para seu sistema de direção autônoma. Essa tecnologia está em desenvolvimento há meses, atualmente em fase de pesquisa, e poderá futuramente complementar a solução de direção autônoma de nível 3 da XPeng. O cerne da tecnologia de mapeamento de múltiplas origens reside na operação colaborativa de múltiplos veículos para coletar dados de estrada em tempo real, gerando e atualizando mapas dinamicamente. A vantagem dessa tecnologia é sua capacidade de cobrir áreas inacessíveis a sensores, fornecendo um conjunto de dados mais abrangente para sistemas de direção inteligentes.

Apr 15, 2025

Como as editoras podem lucrar com IA? Explorando diferentes modelos de receita e seus prós e contras

Com o rápido desenvolvimento da tecnologia de inteligência artificial, as editoras estão buscando novas fontes de receita para se adaptarem a este mercado em constante mudança. Recentemente, várias editoras têm fechado acordos de parceria com empresas de IA, explorando diferentes modelos de receita, incluindo acordos de licenciamento de conteúdo e modelos de compartilhamento de receita de anúncios. Esses novos modelos de negócios não apenas oferecem às editoras oportunidades potenciais de lucro, mas também geram relações complexas entre as editoras e as empresas de IA. Os acordos de licenciamento de conteúdo são uma das formas mais comuns de colaboração entre editoras e empresas de IA. As editoras concedem licenças para seu conteúdo para empresas de IA...

Apr 10, 2025

MagicColor: IA colore automaticamente esboços com um clique, mesmo imagens com múltiplos personagens com coloração precisa por região

Recentemente, uma nova ferramenta de IA chamada MagicColor gerou grande discussão nos círculos de tecnologia e arte. Essa tecnologia inovadora permite a coloração automática de imagens de esboço com operações simples. Basta carregar um esboço em preto e branco e algumas imagens de referência, e o sistema pode concluir o preenchimento de cores preciso e natural em segundos. Esse recurso inovador não apenas aumenta significativamente a eficiência da criação, mas também fornece um assistente de criação inteligente sem precedentes para designers de anime, ilustradores e usuários comuns. De acordo com a introdução, a função principal do MagicColor reside em seu recurso de um clique

Apr 7, 2025

Equipe do Modelo de Grande Linguagem Doubao da ByteDance realiza reunião geral para explorar novos patamares da IA

No contexto do florescimento do campo da inteligência artificial, a equipe do modelo de grande linguagem Doubao (Seed) da ByteDance realizou recentemente uma reunião geral, marcando uma decisão importante sobre a direção futura do desenvolvimento da equipe. A reunião foi conduzida por Zhu Wenjia e pelo novo chefe de pesquisa fundamental de IA, Wu Yonghui, sendo a primeira vez que ambos os líderes compareceram juntos, atraindo ampla atenção da indústria. Na reunião, Zhu Wenjia e Wu Yonghui declararam explicitamente que o principal objetivo da equipe Seed é "explorar o limite superior da inteligência", o que se tornará a orientação central do trabalho futuro da equipe. Eles apontaram que a exploração...

Mar 19, 2025

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral