Alibaba Cloud hat Qwen3-Omni veröffentlicht, was den Beginn des weltweit ersten nativen end-to-end-Allmodus-KI-Modells markiert und das Modell ist nun open source. Qwen3-Omni verfügt über die Fähigkeit, verschiedene Eingabetypen wie Text, Bilder, Audio und Video zu verarbeiten und kann in Echtzeit strömen. Es kann schnell reagieren, sowohl durch Text als auch durch natürliche Sprache.
Das Qwen3-Omni-Modell zeigt in verschiedenen Bereichen hervorragende Leistungen bei der Verarbeitung von mehreren Modalitäten. Durch eine frühe auf Text basierende Vortrainingsphase und eine gemischte multimodale Trainingsmethode besitzt das Modell starke multimodale Fähigkeiten. Besonders hervorragend sind seine Leistungen in Bezug auf Audio und Video, während es gleichzeitig in Text- und Bildverarbeitung hochwertige Ergebnisse liefert. Laut 36 Benchmark-Tests für Audio und Video erreicht Qwen3-Omni in 22 Tests den neuesten führenden Stand, insbesondere in Bereichen wie automatischer Spracherkennung und Audioverständnis, wo es mit Gemini2.5Pro der Branche gleichkommt.
Qwen3-Omni unterstützt 119 Textsprachen und 19 Spracheingabesprachen, außerdem gibt es 10 Sprachausgabesprachen, darunter Englisch, Chinesisch, Französisch und Deutsch. Diese Funktion ermöglicht es dem Modell, besser auf globale Benutzer zuzugehen. Seine innovative Architektur basiert auf einem MoE-(Mixture of Experts)-System, kombiniert mit AuT-Vortrainings, wodurch das Modell über starke allgemeine Repräsentationsfähigkeiten verfügt. Gleichzeitig sorgt die Mehrfach-Codebook-Design für geringe Latenzzeiten bei Echtzeit-Audio- und Video-Interaktionen und unterstützt flüssige Gespräche.
Abgesehen von Qwen3-Omni hat Alibaba Cloud auch Qwen3-TTS veröffentlicht, ein Text-zu-Sprache-Modell mit 17 Stimmauswahlen. Das Modell zeigt in verschiedenen Bewertungsbenchmarks herausragende Leistungen und übertreffen mehrere Konkurrenzprodukte, besonders in Bezug auf Stabilität und Stimmsimilarität.
Qwen-Image-Edit-2509 ist ein weiteres neu veröffentlichtes Werkzeug, das sich auf die Bearbeitung von mehreren Bildern spezialisiert hat und die Konsistenz und Qualität der Bearbeitung erheblich verbessert hat. Es kann nicht nur einzelne Bilder verarbeiten, sondern auch mehrere Bilder zusammensetzen und bearbeiten, um komplexere Bearbeitungsanforderungen zu erfüllen.
GitHub:https://github.com/QwenLM/Qwen3-Omni
huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
Kernpunkte:
🌟 Qwen3-Omni ist das weltweit erste native end-to-end-Allmodus-KI-Modell und unterstützt die einheitliche Verarbeitung von Text, Bildern, Audio und Video.
🌐 Das Modell unterstützt 119 Textsprachen und 19 Spracheingaben und kann die multilinguale Anforderung globaler Benutzer erfüllen.
🖼️ Das neu veröffentlichte Qwen-Image-Edit-2509 unterstützt die Bearbeitung von mehreren Bildern und verbessert die Konsistenz und Qualität der Bearbeitung erheblich.