Recentemente, o modelo multimodal Qwen VLo foi oficialmente lançado, alcançando avanços significativos na compreensão e geração de conteúdo visual, oferecendo aos usuários uma nova experiência criativa visual.

De acordo com as informações divulgadas, o Qwen VLo, com base nas vantagens dos modelos anteriores da série Qwen-VL, passou por uma atualização completa. O modelo não só consegue "entender" o mundo com precisão, mas também pode realizar uma recriação de alta qualidade com base em sua compreensão, realmente realizando a transição da percepção à geração. Os usuários agora podem experimentar esse novo modelo diretamente na plataforma Qwen Chat (chat.qwen.ai).

A característica única do Qwen VLo está em seu método de geração progressiva. Ao gerar imagens, o modelo adota uma estratégia de construção gradual, da esquerda para a direita e de cima para baixo, otimizando e ajustando continuamente os conteúdos previstos durante o processo, garantindo que o resultado final seja coerente e harmônico. Essa mecânica de geração não apenas melhora a qualidade visual, mas também oferece aos usuários um processo criativo mais flexível e controlável.

微信截图_20250628093705.png

No que diz respeito à compreensão de conteúdo e à recriação, o Qwen VLo demonstrou grandes capacidades. Em comparação com modelos multimodais anteriores, o Qwen VLo consegue manter melhor a consistência semântica durante o processo de geração, evitando problemas como gerar outros objetos ao invés de carros ou não preservar as características estruturais principais da imagem original. Por exemplo, quando o usuário fornece uma foto de carro e pede para trocar a cor, o Qwen VLo consegue identificar corretamente o modelo do carro, preservar suas características estruturais originais e converter naturalmente o estilo de cor, tornando o resultado gerado conforme esperado e mantendo a sensação de realidade.

Além disso, o Qwen VLo também suporta edição aberta de instruções para gerar modificações. Os usuários podem propor várias instruções criativas por meio de linguagem natural, como mudar o estilo artístico, adicionar elementos ou ajustar o fundo, entre outros. O modelo pode responder flexivelmente a essas instruções e gerar resultados de acordo com as expectativas do usuário. Seja para transferência de estilo artístico, reconstrução de cena ou detalhes de modificação, o Qwen VLo pode lidar com facilidade.

Destaca-se que o Qwen VLo também possui a capacidade de suportar instruções em múltiplos idiomas. O modelo suporta instruções em vários idiomas, incluindo chinês e inglês, fornecendo aos usuários globais uma experiência de interação unificada e conveniente. Independentemente do idioma que o usuário utilizar, basta descrever simplesmente suas necessidades e o modelo poderá entender rapidamente e produzir resultados ideais.

Na aplicação prática, o Qwen VLo demonstrou funções diversificadas. Ele pode gerar imagens diretamente e realizar modificações, como substituir o fundo, adicionar elementos principais ou realizar transferência de estilo, entre outras. Além disso, o modelo também pode completar grandes modificações com base em instruções abertas, incluindo tarefas de percepção visual como detecção e segmentação. Além disso, o Qwen VLo suporta a compreensão e geração de múltiplas imagens, bem como funcionalidades como detecção e anotação de imagens.

Além da entrada simultânea de texto e imagens, o Qwen VLo também suporta a geração direta de imagens a partir de textos, incluindo imagens gerais e cartazes em chinês e inglês. O modelo utiliza treinamento com resolução dinâmica e suporta a geração de imagens com qualquer resolução e razão de aspecto, permitindo que os usuários gerem conteúdo adequado a diferentes cenários conforme suas necessidades reais.

Atualmente, o Qwen VLo ainda está em fase de visualização. Embora tenha demonstrado grandes capacidades, ainda existem algumas deficiências. Por exemplo, durante o processo de geração, podem surgir situações que não correspondam à realidade ou que não sejam totalmente consistentes com a imagem original. A equipe de desenvolvimento informou que continuará iterando no modelo, melhorando constantemente seu desempenho e estabilidade.

Endereço para experimentar: chat.qwen.ai