A Alibaba Cloud lançou o Qwen3-Omni, marcando o surgimento do primeiro modelo de inteligência artificial multimostral nativo no mundo e o modelo agora está aberto ao público. O Qwen3-Omni é capaz de processar vários tipos de entrada, como texto, imagens, áudio e vídeo, podendo fornecer saídas em tempo real, respondendo rapidamente por meio de texto ou voz natural.

image.png

O modelo Qwen3-Omni demonstra desempenho avançado em múltiplos campos. Com pré-treinamento baseado em texto e treinamento multimostral misto desde cedo, o modelo possui fortes capacidades multimostrais. Em termos de desempenho em áudio e vídeo, é particularmente notável, mantendo padrões elevados em texto e imagem. De acordo com 36 benchmarks de áudio e vídeo, o Qwen3-Omni atingiu os níveis mais recentes em 22 deles, especialmente em áreas como reconhecimento de fala automático e compreensão de áudio, onde sua performance é comparável à do Gemini2.5Pro da mesma indústria.

O Qwen3-Omni suporta 119 idiomas de texto e 19 idiomas de entrada de voz, além de 10 idiomas de saída de voz, incluindo inglês, chinês, francês e alemão, entre outros. Essa funcionalidade permite que ele sirva melhor aos usuários globais. Sua arquitetura inovadora se baseia no sistema MoE (Mistura de Especialistas), combinando o pré-treinamento AuT, tornando o modelo capaz de representação geral poderosa. Além disso, o design de múltiplas tabelas de códigos garante interações em tempo real com baixa latência para áudio e vídeo, suportando conversas naturais fluentes.

Além do Qwen3-Omni, a Alibaba Cloud também lançou o Qwen3-TTS, um modelo de texto para fala que suporta 17 escolhas de tom de voz. Esse modelo se destacou em vários benchmarks de avaliação, superando diversos concorrentes, especialmente em estabilidade da voz e similaridade de tom de voz.

O Qwen-Image-Edit-2509 é outra ferramenta recentemente lançada, focada no suporte a múltiplas imagens para edição, melhorando significativamente a consistência e o efeito da edição. Ele não só pode processar uma única imagem, mas também suporta a edição de múltiplas imagens, atendendo a necessidades de edição mais complexas.

  • GitHub:https://github.com/QwenLM/Qwen3-Omni

  • huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

Principais pontos:  

🌟 O Qwen3-Omni é o primeiro modelo de inteligência artificial multimostral nativo global, suportando o processamento unificado de texto, imagens, áudio e vídeo.  

🌐 O modelo suporta 119 idiomas de texto e 19 idiomas de entrada de voz, atendendo às necessidades multilíngues dos usuários globais.  

🖼️ O novo lançamento Qwen-Image-Edit-2509 suporta edição de múltiplas imagens, melhorando significativamente a consistência e o efeito da edição.