एजेंट के प्रदर्शन मूल्यांकन के क्षेत्र में, वास्तविक स्थिति में इसके प्रदर्शन का लाभप्रद रूप से परीक्षण करना हमेशा एक बड़ी समस्या रहा है। यहां तक कि बाजार में अब तक कई मूल्यांकन मानक ऐसे हैं जो इस समस्या के हल की कोशिश कर रहे हैं, लेकिन मेटा के अनुसंधानकर्ता इस बात पर विश्वास करते हैं कि वर्तमान विधियां एजेंट की अनुकूलन क्षमता को वास्तविक रूप से प्रतिबिंबित नहीं कर सकतीं। इसलिए, मेटा ने एक नया मूल्यांकन प्लेटफॉर्म - एजेंट रिसर्च एंवायरनमेंट (ARE) और एक नया मूल्यांकन मॉडल Gaia2 की घोषणा की है, जो एजेंट के वास्तविक अनुप्रयोग में प्रदर्शन के मूल्यांकन में मदद करेगा।

image.png

ARE के डिजाइन का मूल उद्देश्य वास्तविक दुनिया के समान एक वातावरण बनाना है, जिसमें एजेंट बातचीत कर सकें। इस वातावरण में कार्य असंगत रूप से होते हैं, और समय लगातार आगे बढ़ता रहता है, जिसके कारण एजेंट को इस डायनामिक बाधाओं के भीतर अपने कार्य को समायोजित और करना होता है। ARE के मुख्य घटक शामिल हैं: स्थिति बनाए रखने वाला API इंटरफेस एप्लिकेशन, वातावरण सेट, घटनाएं, अधिसूचनाएं और स्थितियां, जिसके माध्यम से उपयोगकर्ता अपनी आवश्यकताओं के अनुसार परीक्षण स्थिति को अनुकूलित कर सकते हैं।

image.png

Gaia2, ARE के महत्वपूर्ण घटकों में से एक है, जो एजेंट की जटिल वातावरण में क्षमता के मूल्यांकन पर केंद्रित है। पिछले Gaia1 मानक के विपरीत, Gaia2 एजेंट के उत्तर खोजने की क्षमता पर ध्यान नहीं देता है, बल्कि वे बदलती स्थिति, समय सीमा, API खराबी और अस्पष्ट निर्देशों के सामने प्रदर्शन के मूल्यांकन पर ध्यान देते हैं। साथ ही, Gaia2 एजेंट-एजेंट प्रोटोकॉल जैसे विभिन्न प्रोटोकॉल का समर्थन करता है, जो एजेंट के बीच सहयोग क्षमता के मूल्यांकन में मदद करता है।

Gaia2 के मूल्यांकन प्रक्रिया असंगत है, भले ही एजेंट बर्बस हो, समय लगातार आगे बढ़ता रहता है, जिससे यह एजेंट के नई घटना प्राप्त करने पर प्रतिक्रिया क्षमता के मापन में सक्षम होता है। गतिशील वातावरण में 1120 कार्यों के परीक्षण के माध्यम से वर्तमान मूल्यांकन दिखाता है कि OpenAI के GPT-5, Gaia2 मानक पर अच्छा प्रदर्शन करता है और नेता है।

मेटा के Gaia2 के अलावा, बाजार में अन्य कुछ प्रयास भी हैं जो वास्तविक वातावरण परीक्षण प्रदान करने के लिए हैं, जैसे Hugging Face के Yourbench, Salesforce के MCPEval और Inclusion AI के Inclusion Arena। इन प्लेटफॉर्म में प्रत्येक अपने विशिष्ट क्षेत्र में है, लेकिन Gaia2 एजेंट की अनुकूलन क्षमता और अकस्मात घटनाओं के प्रबंधन में विशेष रूप से ध्यान केंद्रित करता है, जो कंपनियों के लिए एजेंट के प्रदर्शन के मूल्यांकन के लिए एक अन्य प्रभावी तरीका प्रदान करता है।

आधिकारिक ब्लॉग: https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/

मुख्य बातें:

🌟 मेटा ने नए एजेंट रिसर्च एंवायरनमेंट (ARE) और Gaia2 मानक की घोषणा की है, जो एजेंट की वास्तविक दुनिया में अनुकूलन क्षमता में सुधार करेगा।  

📊 Gaia2 एजेंट के बदलती स्थिति और अनिश्चितता में प्रदर्शन के मूल्यांकन पर केंद्रित है, जो पिछले मानक की तुलना में अधिक उपयोगी है।  

🤖 Gaia2 के मूल्यांकन की प्रक्रिया असंगत है और एजेंट के नई घटना प्राप्त करने पर प्रतिक्रिया क्षमता के मूल्यांकन करता है, जिसमें वर्तमान OpenAI के GPT-5 का परीक्षण में अच्छा प्रदर्शन देखा गया है।