A Tencent Hunyuan lançou e abriu o código de seu novo modelo de geração de imagens multimodal - "HunyuanImage3.0". Esta divulgação marca o fato de que a escala de parâmetros deste modelo atingiu 80B, tornando-se o primeiro modelo de geração multimodal nativo de nível industrial com código aberto. A empresa afirma que o desempenho de geração deste modelo pode competir com os modelos fechados líderes do setor.
O principal destaque do HunyuanImage3.0 é sua capacidade de lidar com conteúdo semântico complexo, interpretar textos de mil palavras e gerar imagens correspondentes. Por meio do raciocínio com conhecimento, este modelo pode gerar textos longos, o que representa uma grande inovação em modelos anteriores de geração de imagens. Essa melhoria tecnológica não apenas traz uma experiência criativa mais rica para os usuários, mas também abre novas possibilidades para o campo da geração de imagens por IA.
Esta atualização é uma importante melhoria na série Hunyuan desde a versão 2.0 lançada em maio deste ano. A versão 2.0 já alcançou velocidade de resposta em milissegundos e qualidade de imagem super-realista, além de suportar a geração em tempo real de imagens, permitindo que os usuários vejam o processo de geração da imagem enquanto digitam o texto. Essa funcionalidade de feedback imediato aumenta significativamente a experiência de interação dos usuários.
A Tencent Hunyuan já abriu o código de várias tecnologias de geração de IA ao longo do tempo, incluindo modelos de geração 3D, plugins de geração de imagens personalizadas InstantCharacter e ferramentas de geração de vídeos multimodais HunyuanCustom. Estes projetos de código aberto construíram um ecossistema completo de tecnologia de conteúdo gerado por IA (AIGC), permitindo que desenvolvedores e usuários explorem e aplicem em vários campos.
** Destaque:**
🌟 O HunyuanImage3.0 é o primeiro modelo de geração multimodal de nível industrial com código aberto da Tencent, com uma escala de parâmetros de 80B.
🖼️ O modelo é capaz de interpretar semântica complexa e gerar textos longos de mil palavras, com resultados comparáveis aos melhores modelos fechados.
🚀 Esta é uma atualização após a versão 2.0, com suporte à resposta em milissegundos e experiência de interação com geração em tempo real de imagens.