हाल ही में, मेयू ने मिश्रित एक्सपर्ट आर्किटेक्चर पर आधारित एक बड़ा अनुमान मॉडल - LongCat-Flash-Thinking लॉन्च किया। इस नए मॉडल के 560 बिलियन पैरामीटर हैं, जो ध्यान खींचते हैं! लेकिन सबसे अधिक आश्चर्य की बात यह है कि यह संदर्भ की आवश्यकता के अनुसार 18.6 बिलियन से 31.3 बिलियन पैरामीटर के डायनमिक एक्टिवेशन कर सकता है, औसतन लगभग 27 बिलियन पैरामीटर के एक्टिवेशन करता है। ऐसा लचीला डिज़ाइन मॉडल को विभिन्न कार्यों में अच्छा प्रदर्शन करने में सक्षम बनाता है, विशेष रूप से तार्किक अनुमान, गणितीय गणना और प्रोग्रामिंग क्षेत्रों में।

image.png

मेयू के आधिकारिक डेटा के अनुसार, LongCat-Flash-Thinking कई मुख्य मॉडलों के साथ गहरे तुलना में एक श्रृंखला में आधुनिक मानक परीक्षणों में बारीकी से तुलना की गई। गणितीय सोच में, उदाहरण के लिए MATH500 और AIME25 परीक्षण में, यह मॉडल अच्छा प्रदर्शन करता है, यहां तक कि दावा करता है कि मूल उपकरणों के उपयोग से 64.5% टोकन खपत कम हो जाती है, फिर भी शीर्ष सटीकता तक पहुंचता है। इसके अलावा, सामान्य अनुमान (GPQA-Diamond), कोड जनरेशन (LiveCodeBench, OJBench) और फॉर्मल थ्योरम साबित करने (MiniF2F-Test) क्षेत्रों में, इसका प्रदर्शन उद्योग के नेताओं के समान रहता है।

image.png

LongCat-Flash-Thinking मॉडल भार अब MIT लाइसेंस के तहत ओपन सोर्स किया गया है, जिससे डेवलपर्स अब इस शक्तिशाली उपकरण का मुफ्त उपयोग और अध्ययन कर सकते हैं। आधिकारिक रूप से विस्तृत चैट टेम्पलेट प्रदान किए गए हैं, और विशेष चैट वेबसाइट लॉन्च की गई है, जो उपयोगकर्ताओं के लिए अंतरक्रिया और अभ्यास के लिए सुविधाजनक है।

LongCat-Flash-Thinking एक बड़ा AI मॉडल है, लेकिन मेयू के कृत्रिम बुद्धिमत्ता अनुसंधान क्षेत्र में एक महत्वपूर्ण प्रयास है। इसके उत्कृष्ट प्रदर्शन और लचीला आर्किटेक्चर बाद के अनुप्रयोग विकास और अनुसंधान के लिए नए संभावनाएं प्रदान करेगा।

आधिकारिक वेबसाइट: https://longcat.chat/