हाल ही में, मेइटू लॉंगकैट टीम ने एक स्मार्ट एजेंट मूल्यांकन बेंचमार्क जिसका नाम "विटाबेंच" है, जो बहु-अंतरक्रिया कार्यों पर केंद्रित है, विशेष रूप से जटिल जीवन के स्थानों में उपयोग के लिए आधिकारिक रूप से जारी किया गया। विटाबेंच के आगमन ने वास्तविक जीवन के स्थानों में एजेंट के विकास के लिए महत्वपूर्ण बुनियादी ढांचा प्रदान किया।
विटाबेंच बाहरी खाने, रेस्तरां में भोजन करने और यात्रा करने जैसे अक्सर वास्तविक स्थितियों पर केंद्रित है, जो 66 उपकरणों के एक अंतरक्रियात्मक मूल्यांकन वातावरण बनाता है। मूल्यांकन कार्यों के डिज़ाइन में टिकट खरीदने से लेकर रेस्तरां बुकिंग तक कई जटिल ऑपरेशन शामिल हैं, जिनमें एजेंट को कार्य के क्रम में गहरा तर्क, उपकरण उपयोग और उपयोगकर्ता अंतरक्रिया के संयोजन के रूप में प्रदर्शन करना आवश्यक है।
हालांकि वर्तमान में अग्रणी तर्क मॉडल ने कुछ प्रगति की है, लेकिन लॉंगकैट टीम के अनुसंधान से पता चलता है कि जटिल अंतर-स्थान कार्यों में एजेंट की सफलता दर अब भी 30% से कम है, जो वर्तमान प्रौद्योगिकी और वास्तविक अनुप्रयोग की आवश्यकताओं के बीच एक महत्वपूर्ण अंतर दिखाता है। विटाबेंच के विकास का उद्देश्य इस समस्या को हल करना है, वास्तविक जीवन के स्थानों के अनुप्रयोग और वर्तमान एजेंट मूल्यांकन बेंचमार्क के बीच खाई को भरना है।
इस बेंचमार्क के डिज़ाइन में तर्क की जटिलता, उपकरण की जटिलता और अंतरक्रिया की जटिलता के तीन आयामों के गहरा विश्लेषण के आधार पर बनाया गया है। टीम ने इन आयामों के मापदंडों को मापकर, वास्तविक स्थितियों में एजेंट के प्रदर्शन को प्रणालीगत रूप से मापा। उदाहरण के लिए, तर्क की जटिलता मुख्य रूप से सूचना के संग्रह की आवश्यकता, अवलोकन अंतराल के आकार और आवश्यक तर्क बिंदुओं की संख्या के माध्यम से मूल्यांकन किया जाता है; उपकरण की जटिलता उपकरण के निर्भरता संबंधों और उपयोग श्रृंखला की लंबाई पर विचार करती है; अंतरक्रिया की जटिलता बहु-चरण बातचीत में एजेंट की अनुक्रिया क्षमता पर ध्यान केंद्रित करती है।
विटाबेंच के निर्माण के दो चरण हैं: पहला उपकरण परिभाषा डिज़ाइन करना, फिर कार्य बनाना और मूल्यांकन मानक तैयार करना। इस प्रक्रिया ने कार्य की विविधता और जटिलता सुनिश्चित किया, एक साथ पारंपरिक दस्तावेज़ प्रारूप की सीमाओं को बचा लिया, जिससे एजेंट को अतिरेक नियमों के बिना स्वयं तर्क और निर्णय लेने में सक्षम बनाया गया।
अब विटाबेंच पूरी तरह से ओपन सोर्स है, अनुसंधानकर्ता और विकासकर्ता इसकी आधिकारिक वेबसाइट और GitHub के माध्यम से संबंधित संसाधनों तक पहुंच सकते हैं। विटाबेंच के जारी होने ने स्मार्ट एजेंट मूल्यांकन क्षेत्र में एक महत्वपूर्ण मील के पत्थर के रूप में घोषणा की गई है, जो स्मार्ट एजेंट प्रौद्योगिकी के वास्तविक जीवन के स्थानों में आगे के अनुप्रयोग और विकास के लिए अपेक्षित है।
परियोजना घर पृष्ठ: https://vitabench.github.io
पेपर लिंक: https://arxiv.org/abs/2509.26490
कोड गोल: https://github.com/meituan-longcat/vitabench
डेटा सेट: https://huggingface.co/datasets/meituan- longcat/VitaBench
रैंकिंग सूची: https://vitabench.github.io/#Leaderboard