अलीबेन ने Qwen3-Omni जारी किया, जो वैश्विक पहला एकल-से-एकल सभी माध्यम एआई मॉडल के उत्पादन की घोषणा करता है और अब इस मॉडल को ओपन सोर्स कर दिया गया है। Qwen3-Omni विभिन्न प्रकार के इनपुट के साथ काम करने की क्षमता रखता है, जैसे टेक्स्ट, छवि, ऑडियो और वीडियो, और टेक्स्ट या प्राकृतिक बोले गए शब्दों के माध्यम से वास्तविक समय में स्ट्रीमिंग आउटपुट के साथ तेजी से प्रतिक्रिया दे सकता है।
Qwen3-Omni मॉडल विभिन्न क्षेत्रों में अंतर-माध्यम प्रदर्शन में अग्रणी है। टेक्स्ट पर केंद्रित शुरुआती पूर्व-प्रशिक्षण और मिश्रित बहु-माध्यम प्रशिक्षण के माध्यम से, इस मॉडल में बहु-माध्यम क्षमता है। ऑडियो और वीडियो प्रदर्शन में इसकी क्षमता विशेष रूप से उत्कृष्ट है, जबकि टेक्स्ट और छवि पर प्रभाव भी उच्च मानक बनाए रखता है। 36 ऑडियो और वीडियो बेंचमार्क परीक्षणों के आधार पर, Qwen3-Omni 22 में नवीनतम अग्रणी स्थिति तक पहुंच गया है, विशेष रूप से स्वचालित बोली पहचान और ऑडियो समझ जैसे क्षेत्रों में, जहां यह उद्योग के समकक्ष Gemini2.5Pro के समान है।
Qwen3-Omni 119 टेक्स्ट भाषाओं और 19 ऑडियो इनपुट भाषाओं का समर्थन करता है, इसके अलावा 10 ऑडियो आउटपुट भाषाएं हैं, जैसे अंग्रेजी, चीनी, फ्रेंच और जर्मन। यह क्षमता इसे वैश्विक उपयोगकर्ताओं की बेहतर सेवा करने में सक्षम बनाती है। इसकी नवाचार वाली व्यवस्था MoE (एक्सपर्ट मिक्स) प्रणाली पर आधारित है, जिसमें AuT पूर्व-प्रशिक्षण शामिल है, जिससे मॉडल के सामान्य प्रतिनिधित्व क्षमता बढ़ जाती है। साथ ही, बहु-कोडबुक डिज़ाइन निम्न देरी वाले वास्तविक समय ऑडियो और वीडियो अंतरक्रिया को सुनिश्चित करता है और प्राकृतिक बातचीत के समान बहुत चलती है।
Qwen3-Omni के अलावा, अलीबेन ने Qwen3-TTS भी जारी किया, जो 17 ध्वनि विकल्पों के समर्थन के साथ टेक्स्ट-टू-स्पीच मॉडल है। इस मॉडल ने कई मूल्यांकन बेंचमार्क पर उत्कृष्ट प्रदर्शन किया, जो कई प्रतिद्वंद्वी मॉडलों के ऊपर गया, विशेष रूप से ध्वनि स्थिरता और ध्वनि समानता में विशेष रूप से उल्लेखनीय।
Qwen-Image-Edit-2509 एक अन्य जारी किए गए उपकरण है, जो छवि संपादन के बहु-छवि समर्थन पर केंद्रित है, जो संपादन की एकरूपता और प्रभाव को नाटकीय रूप से बढ़ाता है। यह एकल छवि के साथ काम करने में सक्षम है, साथ ही बहु-छवि जोड़कर संपादन के समर्थन के साथ अधिक जटिल संपादन आवश्यकताओं को पूरा कर सकता है।
GitHub:https://github.com/QwenLM/Qwen3-Omni
huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
मुख्य बातें:
🌟 Qwen3-Omni विश्व का पहला एकल-से-एकल सभी माध्यम एआई मॉडल है, जो टेक्स्ट, छवि, ऑडियो और वीडियो के एकीकृत प्रबंधन के समर्थन के साथ आता है।
🌐 मॉडल 119 टेक्स्ट भाषाओं और 19 ऑडियो इनपुट के समर्थन के साथ आता है, जो वैश्विक उपयोगकर्ताओं की बहुभाषीय आवश्यकताओं को पूरा करता है।
🖼️ जारी किए गए Qwen-Image-Edit-2509 बहु-छवि संपादन के समर्थन के साथ आता है, जो संपादन की एकरूपता और प्रभाव को नाटकीय रूप से बढ़ाता है।