A série Qwen da Alibaba Cloud lançou pela primeira vez um modelo base de geração de imagens chamado Qwen-Image, um transformador multimodal de difusão (MMDiT) com 2 bilhões de parâmetros. Essa inovação não apenas fez avanços significativos na renderização de texto complexo e edição precisa de imagens, mas também demonstrou desempenho excepcional em vários benchmarks públicos, tornando-se uma nova estrela no campo de geração e edição de imagens.
O Qwen-Image se destaca por sua poderosa capacidade de renderização de texto, suportando layout de múltiplas linhas, geração de texto em nível de parágrafo e apresentação de detalhes finos. Seja em inglês ou chinês, ele pode produzir saídas de alta fidelidade. Por exemplo, ao renderizar cenas de anime no estilo de Miyazaki, o modelo pode representar com precisão placas de lojas, posturas e expressões das personagens, bem como pequenos textos nas barricas de sake, que são claramente visíveis. Da mesma forma, na renderização de pares de caracteres chineses, o Qwen-Image não apenas desenha corretamente os pares esquerdo e direito, mas também incorpora habilmente efeitos de caligrafia, impressionando a todos.
No que diz respeito à renderização de texto em inglês, o Qwen-Image também se destaca. Seja para informações exibidas em vitrines de livrarias ou gráficos informativos complexos, o modelo consegue gerar conteúdo textual com precisão e integrá-lo de forma criativa na composição geral, mostrando alto grau de arte e informação. O mais impressionante é que mesmo quando lidando com textos menores ou maiores, o Qwen-Image mantém alta precisão e clareza, como gerar longos trechos de texto em folhas de papel ou apresentar integralmente parágrafos em escrita manuscrita em placas de vidro.
Além da renderização de texto, o Qwen-Image também demonstrou força incomparável na edição de imagens. Por meio de um paradigma de treinamento multitarefa aprimorado, o modelo consegue manter consistência durante o processo de edição, suportando várias operações, como transferência de estilo, adição ou remoção de objetos, aprimoramento de detalhes e ajuste da postura das pessoas. Isso permite que usuários comuns realizem edições profissionais de imagens, reduzindo significativamente a barreira técnica para a criação de conteúdo visual.
Em diversos benchmarks públicos, o desempenho do Qwen-Image é notável. Desde a geração de imagens gerais como GenEval, DPG e OneIG-Bench, até a edição de imagens como GEdit, ImgEdit e GSO, o Qwen-Image obteve desempenho avançado, mostrando suas vantagens abrangentes na geração e edição de imagens. Especialmente na renderização de texto em chinês, o Qwen-Image lidera significativamente os modelos mais avançados existentes, destacando seu papel único como um modelo avançado de geração de imagens.
Atualmente, o Qwen-Image está disponível no ModeloScope, Hugging Face e GitHub, e oferece um relatório técnico detalhado e uma demonstração. Os usuários podem acessar o QwenChat (chat.qwen.ai) e selecionar a função "Geração de Imagens" para experimentar pessoalmente a força desse modelo.
ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face: https://huggingface.co/Qwen/Qwen-Image
GitHub: https://github.com/QwenLM/Qwen-Image
Relatório Técnico: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced