Alibaba Cloud a lancé Qwen3-Omni, marquant ainsi la sortie du premier modèle d'IA à pleine capacité multimodale natif au monde, et ce modèle est désormais open source. Qwen3-Omni est capable de traiter divers types d'entrées tels que le texte, les images, l'audio et la vidéo, et peut produire des sorties en flux en temps réel, répondant rapidement qu'il s'agisse de texte ou de parole naturelle.

image.png

Le modèle Qwen3-Omni présente des performances avancées dans plusieurs domaines. Grâce à une pré-formation centrée sur le texte dès le début et à un entraînement multimodal mixte, ce modèle dispose d'une forte capacité multimodale. Ses performances en matière d'audio et de vidéo sont particulièrement excellentes, tout en maintenant un haut niveau de qualité pour le texte et les images. Selon 36 tests standard en audio et vidéo, Qwen3-Omni atteint le niveau le plus récent dans 22 cas, notamment dans les domaines de la reconnaissance automatique de la parole et de l'écoute auditive, où ses performances sont comparables à celles de Gemini2.5Pro de l'industrie.

Qwen3-Omni prend en charge 119 langues textuelles et 19 langues d'entrée vocale, ainsi que 10 langues de sortie vocale, incluant l'anglais, le chinois, le français et l'allemand. Cette fonctionnalité permet au modèle de mieux servir les utilisateurs du monde entier. Son architecture innovante repose sur un système MoE (Mélange d'Experts) combiné à une pré-formation AuT, ce qui confère au modèle une puissante capacité de représentation générale. De plus, la conception multicodebook assure une interaction audio et vidéo à faible latence, permettant un dialogue naturel fluide.

Au-delà de Qwen3-Omni, Alibaba Cloud a également lancé Qwen3-TTS, un modèle de synthèse vocale prenant en charge 17 choix de ton de voix. Ce modèle se distingue dans plusieurs indicateurs d'évaluation, dépassant plusieurs concurrents, notamment en termes de stabilité vocale et de similarité du ton de voix.

Qwen-Image-Edit-2509 est un autre outil récemment lancé, spécialisé dans le traitement d'images multiples, améliorant significativement la cohérence et l'efficacité de l'édition. Il ne traite pas seulement une seule image, mais supporte aussi l'édition par collage de plusieurs images, satisfaisant ainsi des besoins d'édition plus complexes.

  • GitHub:https://github.com/QwenLM/Qwen3-Omni

  • huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

Points clés :  

🌟 Qwen3-Omni est le premier modèle d'IA à pleine capacité multimodale natif au monde, capable de traiter uniformément le texte, les images, l'audio et la vidéo.  

🌐 Le modèle prend en charge 119 langues textuelles et 19 langues d'entrée vocale, répondant ainsi aux besoins multilingues des utilisateurs du monde entier.  

🖼️ Le nouveau Qwen-Image-Edit-2509 prend en charge l'édition d'images multiples, améliorant significativement la cohérence et l'efficacité de l'édition.