27 मार्च को, अलीबाबा क्लाउड टोंगी क्वेन टीम ने क्वेन मॉडल परिवार में एक नई पीढ़ी के एंड-टू-एंड मल्टीमॉडल फ्लैगशिप मॉडल - क्वेन 2.5-ओम्नी को लॉन्च करने की घोषणा की। यह बिल्कुल नया मॉडल ऑल-राउंड मल्टीमॉडल धारणा के लिए डिज़ाइन किया गया है, जो टेक्स्ट, इमेज, ऑडियो और वीडियो जैसे कई इनपुट फॉर्मेट को बिना किसी समस्या के संभाल सकता है, और साथ ही टेक्स्ट और प्राकृतिक स्पीच सिंथेसिस आउटपुट उत्पन्न कर सकता है।
क्वेन 2.5-ओम्नी ने एक अभिनव थिंकर-टॉकर आर्किटेक्चर को अपनाया है, जो एक एंड-टू-एंड मल्टीमॉडल मॉडल है, जिसका उद्देश्य टेक्स्ट, इमेज, ऑडियो और वीडियो की क्रॉस-मॉडल समझ का समर्थन करना है, और टेक्स्ट और प्राकृतिक स्पीच रिस्पांस को स्ट्रीमिंग तरीके से उत्पन्न करना है। इसमें, थिंकर मॉड्यूल दिमाग की तरह है, जो मल्टीमॉडल इनपुट को संसाधित करता है और उच्च-स्तरीय सिमेंटिक रिप्रेजेंटेशन और संबंधित टेक्स्ट सामग्री उत्पन्न करता है; टॉकर मॉड्यूल एक वॉयस ऑर्गन की तरह है, जो थिंकर द्वारा वास्तविक समय में आउटपुट किए गए सिमेंटिक रिप्रेजेंटेशन और टेक्स्ट को स्ट्रीमिंग तरीके से प्राप्त करता है, और अलग-अलग स्पीच यूनिट को सुचारू रूप से सिंथेसाइज़ करता है। इसके अलावा, इस मॉडल ने एक नई पोजीशन एन्कोडिंग तकनीक TMRoPE (टाइम-अलाइंड मल्टीमॉडल RoPE) प्रस्तुत की है, जो वीडियो और ऑडियो इनपुट के सटीक सिंक्रोनाइजेशन को प्राप्त करने के लिए टाइमलाइन के साथ संरेखण का उपयोग करती है।
यह मॉडल रीयल-टाइम ऑडियो-वीडियो इंटरैक्शन में उत्कृष्ट प्रदर्शन करता है, जो ब्लॉक इनपुट और तत्काल आउटपुट का समर्थन करता है, और पूरी तरह से रीयल-टाइम इंटरैक्शन को प्राप्त कर सकता है। स्पीच जनरेशन की प्राकृतिकता और स्थिरता के मामले में, क्वेन 2.5-ओम्नी कई मौजूदा स्ट्रीमिंग और गैर-स्ट्रीमिंग विकल्पों से आगे निकल गया है। ऑल-मॉडल प्रदर्शन के मामले में, क्वेन 2.5-ओम्नी समान आकार के सिंगल-मॉडल मॉडल के साथ बेंचमार्क परीक्षण करते समय उत्कृष्ट प्रदर्शन दिखाता है, इसकी ऑडियो क्षमता समान आकार के क्वेन 2-ऑडियो से बेहतर है, और क्वेन 2.5-वीएल-7बी के समान स्तर पर है। इसके अलावा, क्वेन 2.5-ओम्नी ने एंड-टू-एंड वॉयस इंस्ट्रक्शन फॉलोइंग में टेक्स्ट इनपुट प्रोसेसिंग के बराबर प्रभाव दिखाया है, और MMLU सामान्य ज्ञान समझ और GSM8K गणितीय तर्क जैसे बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है।
क्वेन 2.5-ओम्नी इमेज, ऑडियो, ऑडियो-वीडियो सहित विभिन्न मोड में समान आकार के सिंगल-मॉडल मॉडल और क्लोज्ड-सोर्स मॉडल जैसे क्वेन 2.5-वीएल-7बी, क्वेन 2-ऑडियो और जेमिनी-1.5-प्रो से बेहतर प्रदर्शन करता है। मल्टीमॉडल टास्क ओम्निबेंच में, क्वेन 2.5-ओम्नी ने SOTA प्रदर्शन प्राप्त किया है। सिंगल-मॉडल कार्यों में, क्वेन 2.5-ओम्नी ने कई क्षेत्रों में उत्कृष्ट प्रदर्शन किया है, जिसमें स्पीच पहचान (कॉमन वॉयस), अनुवाद (कोवोस्ट 2), ऑडियो समझ (एमएमएयू), इमेज रीजनिंग (एमएमएमयू, एमएमस्टार), वीडियो समझ (एमवीबेंच) और स्पीच जनरेशन (सीड-टीटीएस-ईवल और सब्जेक्टिव नेचुरल लिसनिंग सेंस) शामिल हैं।
वर्तमान में, क्वेन 2.5-ओम्नी हगिंग फेस, मॉडलस्कोप, डैशस्कोप और गिटहब पर ओपन सोर्स है, उपयोगकर्ता डेमो के माध्यम से इंटरैक्टिव फ़ंक्शन का अनुभव कर सकते हैं, या क्वेन चैट के माध्यम से सीधे वॉयस या वीडियो चैट शुरू कर सकते हैं, और नए क्वेन 2.5-ओम्नी मॉडल के शक्तिशाली प्रदर्शन का इमर्सिव अनुभव प्राप्त कर सकते हैं।
क्वेन चैट:https://chat.qwenlm.ai
हगिंग फेस:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
मॉडलस्कोप:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
डैशस्कोप:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
गिटहब:https://github.com/QwenLM/Qwen2.5-Omni
डेमो अनुभव:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo