Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Sep 23, 2025

A Alibaba Cloud lançou o Qwen3-Omni, marcando o surgimento do primeiro modelo de inteligência artificial multimostral nativo no mundo e o modelo agora está aberto ao público. O Qwen3-Omni é capaz de processar vários tipos de entrada, como texto, imagens, áudio e vídeo, podendo fornecer saídas em tempo real, respondendo rapidamente por meio de texto ou voz natural.

O modelo Qwen3-Omni demonstra desempenho avançado em múltiplos campos. Com pré-treinamento baseado em texto e treinamento multimostral misto desde cedo, o modelo possui fortes capacidades multimostrais. Em termos de desempenho em áudio e vídeo, é particularmente notável, mantendo padrões elevados em texto e imagem. De acordo com 36 benchmarks de áudio e vídeo, o Qwen3-Omni atingiu os níveis mais recentes em 22 deles, especialmente em áreas como reconhecimento de fala automático e compreensão de áudio, onde sua performance é comparável à do Gemini2.5Pro da mesma indústria.

O Qwen3-Omni suporta 119 idiomas de texto e 19 idiomas de entrada de voz, além de 10 idiomas de saída de voz, incluindo inglês, chinês, francês e alemão, entre outros. Essa funcionalidade permite que ele sirva melhor aos usuários globais. Sua arquitetura inovadora se baseia no sistema MoE (Mistura de Especialistas), combinando o pré-treinamento AuT, tornando o modelo capaz de representação geral poderosa. Além disso, o design de múltiplas tabelas de códigos garante interações em tempo real com baixa latência para áudio e vídeo, suportando conversas naturais fluentes.

Além do Qwen3-Omni, a Alibaba Cloud também lançou o Qwen3-TTS, um modelo de texto para fala que suporta 17 escolhas de tom de voz. Esse modelo se destacou em vários benchmarks de avaliação, superando diversos concorrentes, especialmente em estabilidade da voz e similaridade de tom de voz.

O Qwen-Image-Edit-2509 é outra ferramenta recentemente lançada, focada no suporte a múltiplas imagens para edição, melhorando significativamente a consistência e o efeito da edição. Ele não só pode processar uma única imagem, mas também suporta a edição de múltiplas imagens, atendendo a necessidades de edição mais complexas.

GitHub:https://github.com/QwenLM/Qwen3-Omni
huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

Principais pontos:
🌟 O Qwen3-Omni é o primeiro modelo de inteligência artificial multimostral nativo global, suportando o processamento unificado de texto, imagens, áudio e vídeo.
🌐 O modelo suporta 119 idiomas de texto e 19 idiomas de entrada de voz, atendendo às necessidades multilíngues dos usuários globais.
🖼️ O novo lançamento Qwen-Image-Edit-2509 suporta edição de múltiplas imagens, melhorando significativamente a consistência e o efeito da edição.

Pré-lançamento do OpenAICodex Alpha! Novo modelo de sete níveis revelado, capacidade de programação do GPT-5 melhora significativamente

A OpenAI lança um programa de pré-lançamento do Codex Alpha, convidando desenvolvedores a testar a nova versão do modelo e funcionalidades do Codex antes do lançamento oficial no DevDay2025. Este programa visa permitir que os usuários experimentem antecipadamente as novas tecnologias de assistentes de programação de IA.

Atualização-chave do Synthesia 3.0: apresenta o 'Agente de Vídeo' que interage em tempo real com o público, conversando e respondendo perguntas

O Synthesia lança a versão 3.0 da plataforma de personagens virtuais para vídeos, com uma nova funcionalidade principal chamada 'Agente de Vídeo'. Esses personagens virtuais podem interagir em tempo real com o público nos vídeos, incluindo conversas, respostas a dúvidas e perguntas, além de acesso a informações exclusivas das empresas, aumentando significativamente a utilidade e a autenticidade em cenários como treinamento corporativo e atendimento ao cliente.

Mudança significativa nas políticas da Meta: os dados das conversas dos usuários com o assistente de IA serão usados para anúncios e recomendações em toda a plataforma

A Meta anunciou que, a partir de 16 de dezembro de 2025, todos os diálogos escritos ou de voz dos usuários com a Meta AI serão integrados aos algoritmos de publicidade e conteúdo. Isso significa que as interações dos usuários nos chats de IA influenciarão diretamente os anúncios, postagens e conteúdos de grupos que eles verão nas plataformas como Facebook e Instagram. Por exemplo, após discutir caminhadas, o feed do usuário receberá mais anúncios e conteúdos relacionados.

A linguagem modelo da Anthropic torna-se uma força emergente na segurança cibernética: a capacidade de descoberta de vulnerabilidades do Claude 4.5 apresenta um salto significativo

A empresa Anthropic demonstra a ruptura de seu grande modelo de linguagem na área de segurança cibernética, a probabilidade de descoberta de vulnerabilidades de software pelo novo Claude Sonnet 4.5 atinge 5%, o que representa um aumento significativo em comparação com os 2% da versão anterior, o Sonnet 4. Através do teste CyberGym, é comprovado que a IA pode aumentar eficientemente a defesa cibernética, destacando o potencial do avanço tecnológico.

O Google lança uma grande surpresa! O Gemini CLI conecta-se ao MCP com um único clique, deixando os desenvolvedores livres da confusão de configuração

A ferramenta aberta do Google, o Gemini CLI, se integra profundamente ao framework FastMCP, permitindo a instalação e configuração do servidor MCP com apenas um comando, simplificando significativamente o processo de desenvolvimento tradicional que exigia configuração manual do ambiente, tratamento de dependências e depuração dos canais de transmissão.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Primeiro grande modelo vertical da indústria de ovinos lançado: o modelo S Wu utiliza a IA para impulsionar a criação inteligente de ovinos

Pré-lançamento do OpenAICodex Alpha! Novo modelo de sete níveis revelado, capacidade de programação do GPT-5 melhora significativamente

Atualização-chave do Synthesia 3.0: apresenta o 'Agente de Vídeo' que interage em tempo real com o público, conversando e respondendo perguntas

Nova versão do Qwen-VL-30B-A3B da Alibaba, com desempenho aprimorado em matemática e processamento de vídeo

A OpenAI quer transformar o ChatGPT em uma plataforma de redes sociais: função de mensagem privada em teste

Tencent Huan Yuan Image 3.0 lidera mundial: votação real dos usuários comprova sua capacidade de geração de imagens a partir de textos

Mudança significativa nas políticas da Meta: os dados das conversas dos usuários com o assistente de IA serão usados para anúncios e recomendações em toda a plataforma

A linguagem modelo da Anthropic torna-se uma força emergente na segurança cibernética: a capacidade de descoberta de vulnerabilidades do Claude 4.5 apresenta um salto significativo

Bottlenecks de cálculo e dilemas de privacidade: Novo dispositivo de IA da OpenAI pode ser adiado

O Google lança uma grande surpresa! O Gemini CLI conecta-se ao MCP com um único clique, deixando os desenvolvedores livres da confusão de configuração

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

​Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Primeiro grande modelo vertical da indústria de ovinos lançado: o modelo S Wu utiliza a IA para impulsionar a criação inteligente de ovinos

Pré-lançamento do OpenAICodex Alpha! Novo modelo de sete níveis revelado, capacidade de programação do GPT-5 melhora significativamente

Atualização-chave do Synthesia 3.0: apresenta o 'Agente de Vídeo' que interage em tempo real com o público, conversando e respondendo perguntas

Nova versão do Qwen-VL-30B-A3B da Alibaba, com desempenho aprimorado em matemática e processamento de vídeo

A OpenAI quer transformar o ChatGPT em uma plataforma de redes sociais: função de mensagem privada em teste

Tencent Huan Yuan Image 3.0 lidera mundial: votação real dos usuários comprova sua capacidade de geração de imagens a partir de textos

Mudança significativa nas políticas da Meta: os dados das conversas dos usuários com o assistente de IA serão usados para anúncios e recomendações em toda a plataforma

A linguagem modelo da Anthropic torna-se uma força emergente na segurança cibernética: a capacidade de descoberta de vulnerabilidades do Claude 4.5 apresenta um salto significativo

Bottlenecks de cálculo e dilemas de privacidade: Novo dispositivo de IA da OpenAI pode ser adiado

O Google lança uma grande surpresa! O Gemini CLI conecta-se ao MCP com um único clique, deixando os desenvolvedores livres da confusão de configuração

GEO Services

Alibaba Cloud lança o primeiro modelo de IA multimodal global, Qwen3-Omni, que realiza o processamento unificado de texto, imagens, áudio e vídeo