कृत्रिम बुद्धिमत्ता के क्षेत्र में एक और चमकदार तारा जुड़ गया है! हाल ही में, हुआवेई नूह के सन्दूक प्रयोगशाला और हांगकांग विश्वविद्यालय के प्राकृतिक भाषा प्रसंस्करण समूह (HKU NLP Group) ने मिलकर Dream7B नामक एक नया भाषा मॉडल जारी किया है। इस मॉडल को "अब तक का सबसे शक्तिशाली ओपन-सोर्स डिफ्यूज़न लार्ज लैंग्वेज मॉडल" कहा जा रहा है।
Dream7B के आगमन से न केवल मौजूदा डिफ्यूज़न भाषा मॉडल की तुलना में प्रदर्शन में सुधार हुआ है, बल्कि सामान्य क्षमता, गणित, कोड और योजना क्षमता में भी इसी आकार के शीर्ष ऑटोरेग्रेसिव (AR) भाषा मॉडल के बराबर या उससे भी बेहतर प्रदर्शन दिखाया है। इस अभूतपूर्व प्रगति से पता चलता है कि पाठ निर्माण के क्षेत्र में एक नया तकनीकी प्रतिमान आ सकता है।
परंपरा को तोड़ना: डिफ्यूज़न मॉडल बेहतर भाषा समझ और निर्माण को सक्षम बनाते हैं
लंबे समय से, GPT-4, DeepSeek, Claude जैसे प्रमुख बड़े भाषा मॉडल ऑटोरेग्रेसिव (AR) आर्किटेक्चर पर निर्भर हैं, अर्थात पाठ को बाएँ से दाएँ क्रम में एक-एक करके उत्पन्न करना। हालाँकि इस प्रकार के मॉडल को बड़ी सफलता मिली है, लेकिन जटिल तर्क, दीर्घकालिक योजना और लंबे पाठ की निरंतरता बनाए रखने में अभी भी चुनौतियाँ हैं।
Dream7B का मूल डिस्क्रीट डिफ्यूज़न मॉडल (Discrete Diffusion Models, DMs) के अभिनव आर्किटेक्चर में है। AR मॉडल के विपरीत, डिफ्यूज़न मॉडल पूरी तरह से शोर की स्थिति से शुरू होता है, और क्रमिक रूप से परिष्कृत करके संपूर्ण पाठ अनुक्रम को समानांतर रूप से उत्पन्न करता है। इस मौलिक आर्किटेक्चर अंतर से कई उल्लेखनीय लाभ हुए हैं:
- द्विदिशात्मक संदर्भ मॉडलिंग, मजबूत वैश्विक संगति प्राप्त करना: डिफ्यूज़न मॉडल पाठ अनुक्रम में द्विदिशात्मक जानकारी पर विचार कर सकता है, जिससे संदर्भ को अधिक व्यापक रूप से समझा जा सकता है और अधिक सुसंगत पाठ उत्पन्न किया जा सकता है।
- लचीला और नियंत्रणीय निर्माण क्षमता: पुनरावृति अनुकूलन प्रक्रिया के माध्यम से, Dream7B अधिक लचीला और नियंत्रणीय पाठ निर्माण प्राप्त कर सकता है।
- नमूना त्वरण की संभावित क्षमता: नए आर्किटेक्चर और प्रशिक्षण लक्ष्य शोर से डेटा के अधिक कुशल प्रत्यक्ष मानचित्रण को प्राप्त करने की उम्मीद करते हैं, जिससे मॉडल अनुमान प्रक्रिया में तेजी आती है।
हाल के वर्षों में, भाषा कार्यों में डिफ्यूज़न मॉडल की क्षमता तेजी से स्पष्ट हुई है, उदाहरण के लिए, DiffuLLaMA और LLaDA जैसे मॉडल ने डिफ्यूज़न भाषा मॉडल को 7 बिलियन पैरामीटर तक बढ़ा दिया है। इस बार जारी किया गया Dream7B इस प्रवृत्ति में एक और मील का पत्थर है।
उत्कृष्ट प्रदर्शन: कई कार्यों में शीर्ष ऑटोरेग्रेसिव मॉडल के बराबर
Dream7B ने कई महत्वपूर्ण क्षमताओं में आश्चर्यजनक क्षमता दिखाई है:
- मौजूदा डिफ्यूज़न भाषा मॉडल को काफी पीछे छोड़ता है।
- सामान्य, गणित और कोड क्षमताओं में, यह समान आकार के शीर्ष ऑटोरेग्रेसिव मॉडल के बराबर या उससे भी बेहतर है।
- योजना क्षमता में उत्कृष्ट प्रदर्शन, Countdown और Sudoku जैसे कार्यों के मूल्यांकन के माध्यम से, Dream7B समान आकार के अन्य मॉडल से काफी बेहतर है, कभी-कभी यह पैरामीटर की संख्या से कहीं अधिक नवीनतम DeepSeek V3 के बराबर भी है। इससे पता चलता है कि डिफ्यूज़न मॉडल उन समस्याओं को हल करने में अधिक फायदेमंद हैं जिनमें कई बाधाएँ हैं या एक विशिष्ट लक्ष्य प्राप्त करना है।
अद्वितीय कारीगरी: नवीन तकनीक मॉडल की दक्षता में सुधार करती है
Dream7B की सफलता आकस्मिक नहीं है, इसके पीछे अनुसंधान दल के कई नवाचार हैं:
- ऑटोरेग्रेसिव मॉडल से वज़न आरंभिकरण उधार लेना: शोध दल ने पाया कि मौजूदा ऑटोरेग्रेसिव मॉडल (जैसे Qwen2.57B और LLaMA3) के वज़न का उपयोग डिफ्यूज़न मॉडल के प्रारंभिक पैरामीटर के रूप में करने से प्रशिक्षण दक्षता में उल्लेखनीय रूप से सुधार हो सकता है, खासकर प्रशिक्षण की शुरुआत में।
- संदर्भ अनुकूली टोकन-स्तरीय शोर पुनर्निर्धारण तंत्र: Dream7B प्रत्येक टोकन की संदर्भ जानकारी की मात्रा के अनुसार अपने शोर स्तर को गतिशील रूप से समायोजित कर सकता है, जिससे अधिक परिष्कृत शिक्षा प्राप्त हो सकती है।
लचीला अनुमान: पीढ़ी क्रम सीमा को तोड़ना
ऑटोरेग्रेसिव मॉडल के निश्चित बाएँ से दाएँ पीढ़ी के तरीके के विपरीत, Dream7B के डिफ्यूज़न मॉडल आर्किटेक्चर ने इसे अधिक लचीली अनुमान क्षमता प्रदान की है:
- मनमाना क्रम पीढ़ी: Dream7B पीढ़ी के क्रम से बाध्य नहीं है, और विभिन्न उपयोगकर्ता क्वेरी के अनुकूल होने के लिए मनमाने ढंग से आउटपुट को संश्लेषित कर सकता है। उदाहरण के लिए, यह लचीले ढंग से पाठ को पूरा कर सकता है और मध्य सामग्री भर सकता है।
- गुणवत्ता-गति समायोज्य: डिफ्यूज़न चरणों की संख्या को समायोजित करके, उपयोगकर्ता पीढ़ी की गति और गुणवत्ता के बीच लचीला समझौता कर सकते हैं। कम चरणों से तेज़ पीढ़ी प्राप्त हो सकती है, लेकिन गुणवत्ता थोड़ी कम होती है; और अधिक चरण उच्च गुणवत्ता वाला आउटपुट उत्पन्न कर सकते हैं, लेकिन संगणना लागत अधिक होती है।
वर्तमान में, Dream7B ने अपने बुनियादी मॉडल और निर्देशों के ठीक-ठीक मॉडल के वज़न को ओपन-सोर्स कर दिया है, और कोड GitHub पर सार्वजनिक रूप से उपलब्ध है। इसमें निस्संदेह प्राकृतिक भाषा प्रसंस्करण क्षेत्र में डिफ्यूज़न मॉडल के आगे के शोध और अनुप्रयोग को बढ़ावा मिलेगा। हुआवेई नूह के सन्दूक प्रयोगशाला और हांगकांग विश्वविद्यालय के प्राकृतिक भाषा प्रसंस्करण समूह ने यह भी कहा है कि वे भविष्य में डिफ्यूज़न भाषा मॉडल के लिए अधिक उन्नत प्रशिक्षण के बाद के तरीकों का पता लगाना जारी रखेंगे।
उत्पाद प्रवेश द्वार: https://top.aibase.com/tool/dream-7b