L'équipe Qwen d'Alibaba Cloud a récemment lancé le modèle multimodal Qwen3-Omni, qui devrait bientôt être officiellement publié. Selon des informations fiables, ce modèle a soumis une proposition de retrait (PR) pour prendre en charge Hugging Face Transformers, marquant ainsi l'intégration open source de ce système d'IA multimodale bout en bout. Cette avancée repose sur l'évolution continue de la série Qwen, visant à améliorer davantage l'efficacité du déploiement du modèle sur les appareils à ressources limitées.

QQ20250922-095557.png

Qwen3-Omni est le troisième produit de la série Omni, connue pour son architecture bout en bout, capable de traiter sans difficulté plusieurs modalités d'entrée telles que le texte, les images, les sons et les vidéos, et de générer des sorties textuelles et vocales. Tout comme les modèles précédents, il utilise un design en deux voies appelé Thinker-Talker : le Thinker se charge de comprendre les entrées multimodales et de générer des représentations de haut niveau, tandis que le Talker synthétise en temps réel un langage naturel. Cette architecture garantit un traitement efficace en flux continu pendant l'entraînement et l'inférence du modèle, particulièrement adapté aux scénarios d'interaction en temps réel.