टेंसेंट टर्बोS तकनीक रिपोर्ट का पूर्ण जादूई: 560B पैरामीटर मिश्रित मैंबा आर्किटेक्चर

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · May 22, 2025

4

Tencent ने हंगुआन TurboS तकनीकी रिपोर्ट प्रकाशित की है, जिसमें इसके फ्लैगशिप बड़े भाषा मॉडल TurboS के कोर प्रविधि और शक्तिशाली क्षमताओं को खोल दिया है।

अंतर्राष्ट्रीय वैश्विक अधिकारिक बड़े मॉडल मूल्यांकन प्लेटफार्म Chatbot Arena के नवीनतम रैंकिंग के अनुसार, हंगुआन TurboS 239 प्रतियों के प्रतियोगिता मॉडलों में सातवें स्थान पर है, देश के दूसरे सबसे शीर्ष मॉडल जो Deepseek के बाद आता है, और अंतर्राष्ट्रीय स्तर पर Google, OpenAI और xAI जैसी कुछ संस्थाओं के पीछे है।

हंगुआन TurboS मॉडल की आर्किटेक्चर में नवीन निगल्यन Hybrid Transformer-Mamba संरचना का उपयोग किया गया है, जो इस नयी डिज़ाइन ने Mamba आर्किटेक्चर के लंबी श्रृंखला के प्रसंस्करण पर अग्रणी कार्यक्षमता और Transformer आर्किटेक्चर के संदर्भ समझ पर गुणवत्ता को जोड़कर उत्तम प्रदर्शन और कुशलता का संतुलन बनाया है। इस मॉडल में कुल 128 लेयर हैं, जिनकी सक्रिय पैरामीटर संख्या 56 अरब है, जो उद्योग के पहले बड़े प्रौद्योगिकी प्रसारण के Transformer-Mamba विशेषज्ञ मिश्रित मॉडल (MoE) बन गया है। ऐसी आर्किटेक्चर की नवाचारशीलता के माध्यम से, TurboS अंतर्राष्ट्रीय अधिकारिक मूल्यांकन में सामान्य अंक 1356 प्राप्त किए।

मॉडल की क्षमता को आगे बढ़ाने के लिए, हंगुआन TurboS ने स्व-अनुकूलित लंबी-और-शॉर्ट मेंसन चेन मैकेनिज़्म को शामिल किया है, जो समस्या की जटिलता के आधार पर प्रतिक्रिया मोड को स्वचालित रूप से बदल देता है। इस मैकेनिज़्म के माध्यम से, मॉडल जटिल समस्याओं का विस्तार से विश्लेषण करता है और उच्च सटीकता वाले उत्तर प्रदान करता है, जबकि सरल समस्याओं का प्रतिक्रिया शीघ्र करता है। इसके अलावा, टीम ने अवलोकन माइक्रोट्यूनिंग, स्व-अनुकूलित लंबी-और-शॉर्ट CoT फ्यूजन आदि चार महत्वपूर्ण मॉड्यूलों वाले पीछे के प्रशिक्षण प्रक्रिया का डिज़ाइन किया है, जो मॉडल की प्रदर्शन को और अधिक मजबूत बनाता है।

प्री-ट्रेनिंग के दौरान, हंगुआन TurboS 16 ट्रिलियन टोकन के भाषण पर प्रशिक्षित हुआ है, जो मॉडल के डेटा गुणवत्ता और विविधता को बनाया रखता है। इसका मुख्य आर्किटेक्चर में Transformer, Mamba2 और प्रीफ़ेड न्यूरल नेटवर्क (FFN) के घटक हैं, जो स्तरीय व्यवस्था ठीक है और प्रशिक्षण और व्याख्या की कुशलता को अधिकतम बनाए रखता है।

इस तकनीकी रिपोर्ट का प्रकाशन, न केवल Tencent की बड़े भाषा मॉडल क्षेत्र में तकनीकी क्षमता को दिखाता है, बल्कि भविष्य के बड़े मॉडलों के विकास के लिए नई विचारों और दिशाएँ प्रदान करता है।

पेपर का लिंक: https://arxiv.org/abs/2505.15431

अगुआई करें:

🌟 TurboS मॉडल Chatbot Arena में सातवें स्थान पर है, जो उसकी मजबूत प्रतिस्पर्धा को प्रदर्शित करता है।

💡 नवीनतम Hybrid Transformer-Mamba आर्किटेक्चर ने प्रदर्शन और कुशलता के बीच संतुलन को सुधारा है।

🔍 स्व-अनुकूलित लंबी-और-शॉर्ट मेंसन चेन मैकेनिज़्म ने मॉडल को विभिन्न जटिलता के समस्याओं पर प्रतिक्रिया की क्षमता में सुधार किया है।

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

Building and Deploying AI

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

टेंसेंट टर्बोS तकनीक रिपोर्ट का पूर्ण जादूई: 560B पैरामीटर मिश्रित मैंबा आर्किटेक्चर

AIbase基地

यह लेख AIbase दैनिक से है

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

Building and Deploying AI

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

टेंसेंट टर्बोS तकनीक रिपोर्ट का पूर्ण जादूई: 560B पैरामीटर मिश्रित मैंबा आर्किटेक्चर

AIbase基地

यह लेख AIbase दैनिक से है

GEO Services