27 मार्च को, अलीबाबा क्लाउड टोंगी क्वेन टीम ने क्वेन मॉडल परिवार में एक नई पीढ़ी के एंड-टू-एंड मल्टीमॉडल फ्लैगशिप मॉडल - क्वेन 2.5-ओम्नी को लॉन्च करने की घोषणा की। यह बिल्कुल नया मॉडल ऑल-राउंड मल्टीमॉडल धारणा के लिए डिज़ाइन किया गया है, जो टेक्स्ट, इमेज, ऑडियो और वीडियो जैसे कई इनपुट फॉर्मेट को बिना किसी समस्या के संभाल सकता है, और साथ ही टेक्स्ट और प्राकृतिक स्पीच सिंथेसिस आउटपुट उत्पन्न कर सकता है।

क्वेन 2.5-ओम्नी ने एक अभिनव थिंकर-टॉकर आर्किटेक्चर को अपनाया है, जो एक एंड-टू-एंड मल्टीमॉडल मॉडल है, जिसका उद्देश्य टेक्स्ट, इमेज, ऑडियो और वीडियो की क्रॉस-मॉडल समझ का समर्थन करना है, और टेक्स्ट और प्राकृतिक स्पीच रिस्पांस को स्ट्रीमिंग तरीके से उत्पन्न करना है। इसमें, थिंकर मॉड्यूल दिमाग की तरह है, जो मल्टीमॉडल इनपुट को संसाधित करता है और उच्च-स्तरीय सिमेंटिक रिप्रेजेंटेशन और संबंधित टेक्स्ट सामग्री उत्पन्न करता है; टॉकर मॉड्यूल एक वॉयस ऑर्गन की तरह है, जो थिंकर द्वारा वास्तविक समय में आउटपुट किए गए सिमेंटिक रिप्रेजेंटेशन और टेक्स्ट को स्ट्रीमिंग तरीके से प्राप्त करता है, और अलग-अलग स्पीच यूनिट को सुचारू रूप से सिंथेसाइज़ करता है। इसके अलावा, इस मॉडल ने एक नई पोजीशन एन्कोडिंग तकनीक TMRoPE (टाइम-अलाइंड मल्टीमॉडल RoPE) प्रस्तुत की है, जो वीडियो और ऑडियो इनपुट के सटीक सिंक्रोनाइजेशन को प्राप्त करने के लिए टाइमलाइन के साथ संरेखण का उपयोग करती है।

微信截图_20250327082050.png

यह मॉडल रीयल-टाइम ऑडियो-वीडियो इंटरैक्शन में उत्कृष्ट प्रदर्शन करता है, जो ब्लॉक इनपुट और तत्काल आउटपुट का समर्थन करता है, और पूरी तरह से रीयल-टाइम इंटरैक्शन को प्राप्त कर सकता है। स्पीच जनरेशन की प्राकृतिकता और स्थिरता के मामले में, क्वेन 2.5-ओम्नी कई मौजूदा स्ट्रीमिंग और गैर-स्ट्रीमिंग विकल्पों से आगे निकल गया है। ऑल-मॉडल प्रदर्शन के मामले में, क्वेन 2.5-ओम्नी समान आकार के सिंगल-मॉडल मॉडल के साथ बेंचमार्क परीक्षण करते समय उत्कृष्ट प्रदर्शन दिखाता है, इसकी ऑडियो क्षमता समान आकार के क्वेन 2-ऑडियो से बेहतर है, और क्वेन 2.5-वीएल-7बी के समान स्तर पर है। इसके अलावा, क्वेन 2.5-ओम्नी ने एंड-टू-एंड वॉयस इंस्ट्रक्शन फॉलोइंग में टेक्स्ट इनपुट प्रोसेसिंग के बराबर प्रभाव दिखाया है, और MMLU सामान्य ज्ञान समझ और GSM8K गणितीय तर्क जैसे बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है।

क्वेन 2.5-ओम्नी इमेज, ऑडियो, ऑडियो-वीडियो सहित विभिन्न मोड में समान आकार के सिंगल-मॉडल मॉडल और क्लोज्ड-सोर्स मॉडल जैसे क्वेन 2.5-वीएल-7बी, क्वेन 2-ऑडियो और जेमिनी-1.5-प्रो से बेहतर प्रदर्शन करता है। मल्टीमॉडल टास्क ओम्निबेंच में, क्वेन 2.5-ओम्नी ने SOTA प्रदर्शन प्राप्त किया है। सिंगल-मॉडल कार्यों में, क्वेन 2.5-ओम्नी ने कई क्षेत्रों में उत्कृष्ट प्रदर्शन किया है, जिसमें स्पीच पहचान (कॉमन वॉयस), अनुवाद (कोवोस्ट 2), ऑडियो समझ (एमएमएयू), इमेज रीजनिंग (एमएमएमयू, एमएमस्टार), वीडियो समझ (एमवीबेंच) और स्पीच जनरेशन (सीड-टीटीएस-ईवल और सब्जेक्टिव नेचुरल लिसनिंग सेंस) शामिल हैं।

वर्तमान में, क्वेन 2.5-ओम्नी हगिंग फेस, मॉडलस्कोप, डैशस्कोप और गिटहब पर ओपन सोर्स है, उपयोगकर्ता डेमो के माध्यम से इंटरैक्टिव फ़ंक्शन का अनुभव कर सकते हैं, या क्वेन चैट के माध्यम से सीधे वॉयस या वीडियो चैट शुरू कर सकते हैं, और नए क्वेन 2.5-ओम्नी मॉडल के शक्तिशाली प्रदर्शन का इमर्सिव अनुभव प्राप्त कर सकते हैं।

  • क्वेन चैट:https://chat.qwenlm.ai

  • हगिंग फेस:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • मॉडलस्कोप:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

  • डैशस्कोप:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

  • गिटहब:https://github.com/QwenLM/Qwen2.5-Omni

  • डेमो अनुभव:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo