Tencent ने हंगुआन TurboS तकनीकी रिपोर्ट प्रकाशित की है, जिसमें इसके फ्लैगशिप बड़े भाषा मॉडल TurboS के कोर प्रविधि और शक्तिशाली क्षमताओं को खोल दिया है।
अंतर्राष्ट्रीय वैश्विक अधिकारिक बड़े मॉडल मूल्यांकन प्लेटफार्म Chatbot Arena के नवीनतम रैंकिंग के अनुसार, हंगुआन TurboS 239 प्रतियों के प्रतियोगिता मॉडलों में सातवें स्थान पर है, देश के दूसरे सबसे शीर्ष मॉडल जो Deepseek के बाद आता है, और अंतर्राष्ट्रीय स्तर पर Google, OpenAI और xAI जैसी कुछ संस्थाओं के पीछे है।
हंगुआन TurboS मॉडल की आर्किटेक्चर में नवीन निगल्यन Hybrid Transformer-Mamba संरचना का उपयोग किया गया है, जो इस नयी डिज़ाइन ने Mamba आर्किटेक्चर के लंबी श्रृंखला के प्रसंस्करण पर अग्रणी कार्यक्षमता और Transformer आर्किटेक्चर के संदर्भ समझ पर गुणवत्ता को जोड़कर उत्तम प्रदर्शन और कुशलता का संतुलन बनाया है। इस मॉडल में कुल 128 लेयर हैं, जिनकी सक्रिय पैरामीटर संख्या 56 अरब है, जो उद्योग के पहले बड़े प्रौद्योगिकी प्रसारण के Transformer-Mamba विशेषज्ञ मिश्रित मॉडल (MoE) बन गया है। ऐसी आर्किटेक्चर की नवाचारशीलता के माध्यम से, TurboS अंतर्राष्ट्रीय अधिकारिक मूल्यांकन में सामान्य अंक 1356 प्राप्त किए।
मॉडल की क्षमता को आगे बढ़ाने के लिए, हंगुआन TurboS ने स्व-अनुकूलित लंबी-और-शॉर्ट मेंसन चेन मैकेनिज़्म को शामिल किया है, जो समस्या की जटिलता के आधार पर प्रतिक्रिया मोड को स्वचालित रूप से बदल देता है। इस मैकेनिज़्म के माध्यम से, मॉडल जटिल समस्याओं का विस्तार से विश्लेषण करता है और उच्च सटीकता वाले उत्तर प्रदान करता है, जबकि सरल समस्याओं का प्रतिक्रिया शीघ्र करता है। इसके अलावा, टीम ने अवलोकन माइक्रोट्यूनिंग, स्व-अनुकूलित लंबी-और-शॉर्ट CoT फ्यूजन आदि चार महत्वपूर्ण मॉड्यूलों वाले पीछे के प्रशिक्षण प्रक्रिया का डिज़ाइन किया है, जो मॉडल की प्रदर्शन को और अधिक मजबूत बनाता है।
प्री-ट्रेनिंग के दौरान, हंगुआन TurboS 16 ट्रिलियन टोकन के भाषण पर प्रशिक्षित हुआ है, जो मॉडल के डेटा गुणवत्ता और विविधता को बनाया रखता है। इसका मुख्य आर्किटेक्चर में Transformer, Mamba2 और प्रीफ़ेड न्यूरल नेटवर्क (FFN) के घटक हैं, जो स्तरीय व्यवस्था ठीक है और प्रशिक्षण और व्याख्या की कुशलता को अधिकतम बनाए रखता है।
इस तकनीकी रिपोर्ट का प्रकाशन, न केवल Tencent की बड़े भाषा मॉडल क्षेत्र में तकनीकी क्षमता को दिखाता है, बल्कि भविष्य के बड़े मॉडलों के विकास के लिए नई विचारों और दिशाएँ प्रदान करता है।
पेपर का लिंक: https://arxiv.org/abs/2505.15431
अगुआई करें:
🌟 TurboS मॉडल Chatbot Arena में सातवें स्थान पर है, जो उसकी मजबूत प्रतिस्पर्धा को प्रदर्शित करता है।
💡 नवीनतम Hybrid Transformer-Mamba आर्किटेक्चर ने प्रदर्शन और कुशलता के बीच संतुलन को सुधारा है।
🔍 स्व-अनुकूलित लंबी-और-शॉर्ट मेंसन चेन मैकेनिज़्म ने मॉडल को विभिन्न जटिलता के समस्याओं पर प्रतिक्रिया की क्षमता में सुधार किया है।