आज, स्मी मिस ने पूरी तरह से ओपन सोर्स करके MiDashengLM-7B बहुमाध्यमिक मॉडल के लॉन्च का औपचारिक घोषणा की। इस मॉडल का विशेष ध्यान ध्वनि समझ पर है और इसने कार्यक्षमता और दक्षता के दोनों मापदंडों पर महत्वपूर्ण अंतर लाया है। यह मॉडल 22 सार्वजनिक मूल्यांकन सेट पर बहुमाध्यमिक मॉडल के सबसे अच्छे प्रदर्शन को तोड़ दिया है, और अधिक आश्चर्यजनक रूप से, एक नमूना अनुमान के पहले टोकन देरी केवल उद्योग में आगे बढ़े मॉडल के चौथाई है, डेटा ग्रहण क्षमता भी दस गुना से अधिक बढ़ गई है।
तकनीकी व्यवस्था: ध्वनि पूर्ण समझ के लिए दो केंद्रीय डिज़ाइन
MiDashengLM-7B ने नवीनतम दो केंद्रीय व्यवस्था डिज़ाइन का उपयोग किया है, जहां Xiaomi Dasheng ध्वनि कोडर के रूप में काम करता है, और Qwen2.5-Omni-7B Thinker के रूप में स्व-अनुमान डिकोडर के रूप में काम करता है। यह डिज़ाइन विशेष रूप से विशेषज्ञ ध्वनि संसाधन क्षमता और मजबूत भाषा समझ क्षमता के एकीकरण के साथ एक विशेष तकनीकी आधार बनाता है।
इस मॉडल का सबसे बड़ा तकनीकी उल्लेखनीय बिंदु उसकी सामान्य ध्वनि वर्णन प्रशिक्षण रणनीति है। पारंपरिक ध्वनि एआई मॉडल अक्सर एक ही प्रकार के ध्वनि संसाधन पर केंद्रित होते हैं, या तो बोली की पहचान में अच्छे होते हैं, या संगीत विश्लेषण में विशेषज्ञ होते हैं। MiDashengLM-7B इस सीमा को तोड़ देता है, जो बोली, वातावरणीय ध्वनि और संगीत के एकीकृत समझ की ओर बढ़ता है, जो इंडस्ट्री में अपने आप में असामान्य है।
इस एकीकृत प्रशिक्षण रणनीति के माध्यम से, मॉडल मनुष्यों के बातचीत के समय उच्च सटीकता बनाए रखता है, वातावरणीय ध्वनि के विश्लेषण में स्थिति सूचना के सटीक निर्णय करता है, और संगीत के अवधारणा में रिथ्म, भावना और शैली विशेषताओं की पहचान करता है। यह अंतर-क्षेत्रीय ध्वनि समझ क्षमता मॉडल के विविध एप्लिकेशन में उपयोग के लिए संभावना प्रदान करती है।
कार्यक्षमता अप्रत्याशित: 22 मूल्यांकन पूर्ण नेतृत्व
कार्यक्षमता मूल्यांकन के मामले में, MiDashengLM-7B का प्रदर्शन बहुत अच्छा है। इस मॉडल ने 22 सार्वजनिक मूल्यांकन सेट पर बहुमाध्यमिक मॉडल के सबसे अच्छे प्रदर्शन को तोड़ दिया है, जो ध्वनि समझ के क्षेत्र में इसकी तकनीकी अग्रणीता की पुष्टि करता है।
अधिक ध्यान आकर्षित करने वाली बात इसकी ताकत के बदलाव में अप्रत्याशित वृद्धि है। एक नमूना अनुमान के पहले टोकन देरी (TTFT) उद्योग में आगे बढ़े मॉडल के चौथाई है, जो उपयोगकर्ता को एक और चिकना अंतरक्रिया अनुभव प्रदान करता है। एक ही वर्चुअल मेमोरी के अंदर, इस मॉडल की डेटा ग्रहण क्षमता उद्योग में आगे बढ़े मॉडल से 20 गुना से अधिक है, जो बड़े पैमाने पर डेप्लॉयमेंट और वास्तविक समय एप्लिकेशन के लिए महत्वपूर्ण है।
इस कार्यक्षमता लाभ के प्राप्ति के पीछे छिपी हुई तकनीकी उपलब्धि चीनी विशेषज्ञों के मॉडल व्यवस्था अनुकूलन और प्रशिक्षण रणनीति में सुधार है। ध्वनि कोडर के ध्यान से डिज़ाइन किए गए और दक्ष डिकोडर मैकेनिज्म के माध्यम से, मॉडल उच्च सटीकता बनाए रखता है और गणना खर्च को बहुत कम कर देता है।
Dasheng श्रृंखला: ध्वनि एआई तकनीक में महत्वपूर्ण सुधार
MiDashengLM-7B एमिएक्स डैशेंग श्रृंखला मॉडल के महत्वपूर्ण सुधार के रूप में है। Xiaomi Dasheng ध्वनि कोडर मुख्य घटक के रूप में काम करता है, जिसे कई पीढ़ियों के तकनीकी विकास और अनुकूलन के बाद एक आपेक्षिक रूप से परिपक्व तकनीकी प्रणाली बन गई है। इस रिलीज़ के साथ नए मॉडल के पूर्ववर्ती पर पूर्ण सुधार किया गया है, जो ध्वनि समझ की सटीकता में वृद्धि के साथ-साथ गणना दक्षता में महत्वपूर्ण सुधार के साथ आता है।
तकनीकी विकास के संदर्भ में, Dasheng श्रृंखला एमिएक्स के ध्वनि एआई क्षेत्र में लंबे समय से तकनीकी विकास के प्रतिबिंब के रूप में दिखाई देती है। लगातार तकनीकी संचय और सुधार के माध्यम से, एमिएक्स ने ध्वनि कोडिंग से बहुमाध्यमिक समझ तक पूर्ण तकनीकी श्रृंखला बना ली है, जो आगे के अधिक नवाचार एप्लिकेशन के लिए आधार तैयार करता है।
भविष्य की योजना: अंतिम डेप्लॉयमेंट और कार्यक्षमता सुधार
एमिएक्स वर्तमान तकनीकी उपलब्धि पर रुक गया है, बल्कि अधिक व्यापक अनुप्रयोग संभावनाओं पर ध्यान केंद्रित करता है। आधिकारिक घोषणा के अनुसार, कंपनी इस मॉडल के गणना दक्षता में आगे के सुधार के लिए शुरू कर दिया है, जिसका लक्ष्य अंतिम उपकरणों पर ऑफलाइन डेप्लॉयमेंट के लिए है। यह विकास रणनीतिक रूप से महत्वपूर्ण है, जिसका अर्थ है कि उपयोगकर्ता बिना क्लाउड सेवा के बिना उच्च गुणवत्ता वाले ध्वनि एआई सेवा का आनंद ले सकेंगे।
ऑफलाइन डेप्लॉयमेंट के माध्यम से, उपयोगकर्ताओं के लिए बेहतर गोपनीयता सुरक्षा और कम उपयोग लागत प्रदान की जाएगी, और एमिएक्स के IoT पारिस्थितिकी तंत्र में ध्वनि एआई एप्लिकेशन के लिए तकनीकी समर्थन प्रदान की जाएगी। बोले जाने वाले स्पीकर, मोबाइल फोन या अन्य बुद्धिमान उपकरणों के लिए, एक मजबूत ध्वनि समझ क्षमता शामिल किए जाने की संभावना है।