अली टॉन्गी क्वेन ओपन सोर्स ने अगली पीढ़ी के एंड-टू-एंड मल्टीमॉडल मॉडल Qwen2.5-Omni जारी किया

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Mar 27, 2025

27 मार्च को, अलीबाबा क्लाउड टोंगी क्वेन टीम ने क्वेन मॉडल परिवार में एक नई पीढ़ी के एंड-टू-एंड मल्टीमॉडल फ्लैगशिप मॉडल - क्वेन 2.5-ओम्नी को लॉन्च करने की घोषणा की। यह बिल्कुल नया मॉडल ऑल-राउंड मल्टीमॉडल धारणा के लिए डिज़ाइन किया गया है, जो टेक्स्ट, इमेज, ऑडियो और वीडियो जैसे कई इनपुट फॉर्मेट को बिना किसी समस्या के संभाल सकता है, और साथ ही टेक्स्ट और प्राकृतिक स्पीच सिंथेसिस आउटपुट उत्पन्न कर सकता है।

क्वेन 2.5-ओम्नी ने एक अभिनव थिंकर-टॉकर आर्किटेक्चर को अपनाया है, जो एक एंड-टू-एंड मल्टीमॉडल मॉडल है, जिसका उद्देश्य टेक्स्ट, इमेज, ऑडियो और वीडियो की क्रॉस-मॉडल समझ का समर्थन करना है, और टेक्स्ट और प्राकृतिक स्पीच रिस्पांस को स्ट्रीमिंग तरीके से उत्पन्न करना है। इसमें, थिंकर मॉड्यूल दिमाग की तरह है, जो मल्टीमॉडल इनपुट को संसाधित करता है और उच्च-स्तरीय सिमेंटिक रिप्रेजेंटेशन और संबंधित टेक्स्ट सामग्री उत्पन्न करता है; टॉकर मॉड्यूल एक वॉयस ऑर्गन की तरह है, जो थिंकर द्वारा वास्तविक समय में आउटपुट किए गए सिमेंटिक रिप्रेजेंटेशन और टेक्स्ट को स्ट्रीमिंग तरीके से प्राप्त करता है, और अलग-अलग स्पीच यूनिट को सुचारू रूप से सिंथेसाइज़ करता है। इसके अलावा, इस मॉडल ने एक नई पोजीशन एन्कोडिंग तकनीक TMRoPE (टाइम-अलाइंड मल्टीमॉडल RoPE) प्रस्तुत की है, जो वीडियो और ऑडियो इनपुट के सटीक सिंक्रोनाइजेशन को प्राप्त करने के लिए टाइमलाइन के साथ संरेखण का उपयोग करती है।

微信截图_20250327082050.png

यह मॉडल रीयल-टाइम ऑडियो-वीडियो इंटरैक्शन में उत्कृष्ट प्रदर्शन करता है, जो ब्लॉक इनपुट और तत्काल आउटपुट का समर्थन करता है, और पूरी तरह से रीयल-टाइम इंटरैक्शन को प्राप्त कर सकता है। स्पीच जनरेशन की प्राकृतिकता और स्थिरता के मामले में, क्वेन 2.5-ओम्नी कई मौजूदा स्ट्रीमिंग और गैर-स्ट्रीमिंग विकल्पों से आगे निकल गया है। ऑल-मॉडल प्रदर्शन के मामले में, क्वेन 2.5-ओम्नी समान आकार के सिंगल-मॉडल मॉडल के साथ बेंचमार्क परीक्षण करते समय उत्कृष्ट प्रदर्शन दिखाता है, इसकी ऑडियो क्षमता समान आकार के क्वेन 2-ऑडियो से बेहतर है, और क्वेन 2.5-वीएल-7बी के समान स्तर पर है। इसके अलावा, क्वेन 2.5-ओम्नी ने एंड-टू-एंड वॉयस इंस्ट्रक्शन फॉलोइंग में टेक्स्ट इनपुट प्रोसेसिंग के बराबर प्रभाव दिखाया है, और MMLU सामान्य ज्ञान समझ और GSM8K गणितीय तर्क जैसे बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है।

क्वेन 2.5-ओम्नी इमेज, ऑडियो, ऑडियो-वीडियो सहित विभिन्न मोड में समान आकार के सिंगल-मॉडल मॉडल और क्लोज्ड-सोर्स मॉडल जैसे क्वेन 2.5-वीएल-7बी, क्वेन 2-ऑडियो और जेमिनी-1.5-प्रो से बेहतर प्रदर्शन करता है। मल्टीमॉडल टास्क ओम्निबेंच में, क्वेन 2.5-ओम्नी ने SOTA प्रदर्शन प्राप्त किया है। सिंगल-मॉडल कार्यों में, क्वेन 2.5-ओम्नी ने कई क्षेत्रों में उत्कृष्ट प्रदर्शन किया है, जिसमें स्पीच पहचान (कॉमन वॉयस), अनुवाद (कोवोस्ट 2), ऑडियो समझ (एमएमएयू), इमेज रीजनिंग (एमएमएमयू, एमएमस्टार), वीडियो समझ (एमवीबेंच) और स्पीच जनरेशन (सीड-टीटीएस-ईवल और सब्जेक्टिव नेचुरल लिसनिंग सेंस) शामिल हैं।

वर्तमान में, क्वेन 2.5-ओम्नी हगिंग फेस, मॉडलस्कोप, डैशस्कोप और गिटहब पर ओपन सोर्स है, उपयोगकर्ता डेमो के माध्यम से इंटरैक्टिव फ़ंक्शन का अनुभव कर सकते हैं, या क्वेन चैट के माध्यम से सीधे वॉयस या वीडियो चैट शुरू कर सकते हैं, और नए क्वेन 2.5-ओम्नी मॉडल के शक्तिशाली प्रदर्शन का इमर्सिव अनुभव प्राप्त कर सकते हैं।

क्वेन चैट:https://chat.qwenlm.ai
हगिंग फेस:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
मॉडलस्कोप:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
डैशस्कोप:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
गिटहब:https://github.com/QwenLM/Qwen2.5-Omni

डेमो अनुभव:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

Qwen2.5-Omni अलीबाबा क्लाउड टॉन्गी क्वेन मल्टीमॉडल थिंकर-टॉकर आर्किटेक्चर

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

अध्ययन: गूगल सर्च के विपरीत, AI सर्च अक्सर कम प्रसिद्ध वेबसाइटों का उद्धरण देता है

जर्मन रूर विश्वविद्यालय और मैक्स प्लैंक संस्थान के अध्ययन में पाया गया कि पारंपरिक सर्च इंजन और जनरेटिव AI में जानकारी प्रस्तुत करने में अंतर बहुत अधिक होता है। अध्ययन गूगल प्राकृतिक सर्च और चार AI प्रणालियों (गूगल AI सारांश, Gemini2.5Flash, GPT-4o आदि) की तुलना करता है, 4600 से अधिक खोजों के माध्यम से राजनीति, तकनीक आदि छह क्षेत्रों में बनाए गए परीक्षणों द्वारा यह सामने आता है कि जानकारी के स्रोत और सामग्री के संगठन में उनके मूल अंतर होते हैं।

Oct 27, 2025

180

अली Qwen डीप रिसर्च पेश करता है: एक क्लिक पर रिपोर्ट, वेबसाइट और पॉडकास्ट बनाएं

अलीबाबा ने Qwen Deep Research अपग्रेड किया। Qwen Chat में अब एक क्लिक में शोध रिपोर्ट, इंटरैक्टिव वेबपेज और पॉडकास्ट बनाए जा सकते हैं। डेटा विश्लेषण से कंटेंट निर्माण तक का पूरा चक्र सिर्फ 1-2 क्लिक में पूरा।....

Oct 23, 2025

120

अली सी योजना के पहले प्रदर्शन: क्वार्क डायलॉग असिस्टेंट लॉन्च, Qwen मॉडल के साथ C-सीमा AI प्रवेश के लिए प्रतिस्पर्धा करें

अलीबाबा ने 'प्रोजेक्ट सी' के तहत क्वार्क ऐप डायलॉग असिस्टेंट लॉन्च किया, जो तोंगयी कियानवेन मॉडल पर आधारित है। यह युवा उपयोगकर्ताओं के लिए एआई एंट्री पॉइंट और अली के इकोसिस्टम को मजबूत करेगा। होमपेज पर क्लिक/स्वाइप कर इस्तेमाल करें।....

Oct 23, 2025

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

अलीबाबा के टोंगई कियानवेन ने Qwen3-VL के 2B और 32B मॉडल जोड़े, जो हल्के से हाई-परफॉर्मेंस विज़न-लैंग्वेज कार्यों को कवर करते हैं और मोबाइल डिवाइस पर चल सकते हैं। इंस्ट्रक्ट मॉडल तेज़ और स्थिर है, जबकि थिंकिंग मॉडर तर्क पर केंद्रित है। विकास सुविधा और लचीलेपन में सुधार।....

Oct 22, 2025

तांगयी ज़ियान फिर से बड़ा हमला करता है! Qwen3-VL परिवार में 2B और 32B मॉडल शामिल हो गए, ओपन सोर्स मैट्रिक्स पूरी तरह से अपग्रेड कर दिया गया

अली क्लाउड ने Qwen3-VL श्रृंखला में 2B और 32B के दो नए मॉडल लॉन्च किए, जिससे कुल मॉडल 24 हो गए। इसमें 4 डेंस और 2 MoE मॉडल शामिल हैं, जो पारिस्थितिकी तंत्र को मजबूत करते हैं।....

Oct 22, 2025

एआई मॉडल शेयर बाजार में प्रतिस्पर्धा! डीपसीक लाभ 14% से अधिक, जेमिनी2.5प्रो चार दस्ते के नुकसान

कृत्रिम बुद्धिमत्ता प्रयोगशाला नॉफ1 ने अल्फा एरीना परियोजना शुरू की, हाइपरलिक्विड प्लेटफॉर्म पर GPT-5, जेमिनी2.5प्रो आदि छह मुख्य मॉडल के साथ वास्तविक बाजार ट्रेडिंग परीक्षण किया गया। एक ही प्रेरणा और डेटा के शर्तों के तहत, हर मॉडल के पास 10,000 डॉलर की वास्तविक धनराशि थी, वास्तविक वित्तीय परिवेश में ट्रेडिंग निर्णय और जोखिम नियंत्रण क्षमता का मूल्यांकन किया गया।

Oct 21, 2025

180

गूगल दिसंबर में जेमिनी 3.0 मॉडल लॉन्च करेगा

गूगल सीईओ ने Dreamforce 2025 में Gemini 3.0 AI मॉडल की घोषणा की। नया AI स्वतंत्र निर्णय लेने में सक्षम, दक्षता और उपयोगकर्ता अनुभव बेहतर करेगा। दैनिक जीवन और व्यवसाय में उपयोगी।....

Oct 20, 2025

LLaVA-OneVision-1.5 पूरी तरह से ओपन सोर्स मल्टीमीडिया मॉडल Qwen2.5-VL को पार कर गया

LLaVA-OneVision-1.5 मॉडल ने तकनीकी सफलता हासिल की, जो अब छवि और वीडियो को संभाल सकता है। यह खुला और कुशल प्रशिक्षण ढांचा प्रदान करता है, जिससे उपयोगकर्ता आसानी से उच्च गुणवत्ता वाले विज़ुअल-भाषा मॉडल बना सकते हैं।....

Oct 17, 2025

110

AI दैनिक: गूगल ने Veo 3.1 जारी किया; टोंगयी चिक्स्ट ने Qwen Chat Memory सुविधा पेश की; Sora2 मुफ्त उपयोगकर्ता 15 सेकंड के वीडियो बना सकते हैं

गूगल ने Veo 3.1 वीडियो मॉडल जारी किया, जिसमें ऑडियो सुविधा और बेहतर संपादन क्षमता जोड़ी गई है। वीडियो की वास्तविकता और संपादन नियंत्रण में सुधार हुआ है।....

Oct 16, 2025

150

टीएमएस चतुर ने आधिकारिक रूप से Qwen चैट मेमोरी सुविधा लॉन्च करने की घोषणा की

अली का क्यूवेन चैट मेमोरी फीचर उपयोगकर्ता की प्राथमिकताओं और पिछली बातचीत को याद रखता है, व्यक्तिगत अनुभव प्रदान करता है।....

Oct 16, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

अली टॉन्गी क्वेन ओपन सोर्स ने अगली पीढ़ी के एंड-टू-एंड मल्टीमॉडल मॉडल Qwen2.5-Omni जारी किया

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

अध्ययन: गूगल सर्च के विपरीत, AI सर्च अक्सर कम प्रसिद्ध वेबसाइटों का उद्धरण देता है

अली Qwen डीप रिसर्च पेश करता है: एक क्लिक पर रिपोर्ट, वेबसाइट और पॉडकास्ट बनाएं

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

एआई मॉडल शेयर बाजार में प्रतिस्पर्धा! डीपसीक लाभ 14% से अधिक, जेमिनी2.5प्रो चार दस्ते के नुकसान

गूगल दिसंबर में जेमिनी 3.0 मॉडल लॉन्च करेगा

LLaVA-OneVision-1.5 पूरी तरह से ओपन सोर्स मल्टीमीडिया मॉडल Qwen2.5-VL को पार कर गया

टीएमएस चतुर ने आधिकारिक रूप से Qwen चैट मेमोरी सुविधा लॉन्च करने की घोषणा की

संबंधित AI समाचार अनुशंसाएँ

अध्ययन: गूगल सर्च के विपरीत, AI सर्च अक्सर कम प्रसिद्ध वेबसाइटों का उद्धरण देता है

अली Qwen डीप रिसर्च पेश करता है: एक क्लिक पर रिपोर्ट, वेबसाइट और पॉडकास्ट बनाएं

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

एआई मॉडल शेयर बाजार में प्रतिस्पर्धा! डीपसीक लाभ 14% से अधिक, जेमिनी2.5प्रो चार दस्ते के नुकसान

गूगल दिसंबर में जेमिनी 3.0 मॉडल लॉन्च करेगा

LLaVA-OneVision-1.5 पूरी तरह से ओपन सोर्स मल्टीमीडिया मॉडल Qwen2.5-VL को पार कर गया

टीएमएस चतुर ने आधिकारिक रूप से Qwen चैट मेमोरी सुविधा लॉन्च करने की घोषणा की

GEO Services