मेटा ने गाया2 मूल्यांकन प्लेटफॉर्म लॉन्च किया: वास्तविक स्थिति में बुद्धिमान एजेंटों की समायोजन क्षमता में सुधार

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Sep 25, 2025

एजेंट के प्रदर्शन मूल्यांकन के क्षेत्र में, वास्तविक स्थिति में इसके प्रदर्शन का लाभप्रद रूप से परीक्षण करना हमेशा एक बड़ी समस्या रहा है। यहां तक कि बाजार में अब तक कई मूल्यांकन मानक ऐसे हैं जो इस समस्या के हल की कोशिश कर रहे हैं, लेकिन मेटा के अनुसंधानकर्ता इस बात पर विश्वास करते हैं कि वर्तमान विधियां एजेंट की अनुकूलन क्षमता को वास्तविक रूप से प्रतिबिंबित नहीं कर सकतीं। इसलिए, मेटा ने एक नया मूल्यांकन प्लेटफॉर्म - एजेंट रिसर्च एंवायरनमेंट (ARE) और एक नया मूल्यांकन मॉडल Gaia2 की घोषणा की है, जो एजेंट के वास्तविक अनुप्रयोग में प्रदर्शन के मूल्यांकन में मदद करेगा।

ARE के डिजाइन का मूल उद्देश्य वास्तविक दुनिया के समान एक वातावरण बनाना है, जिसमें एजेंट बातचीत कर सकें। इस वातावरण में कार्य असंगत रूप से होते हैं, और समय लगातार आगे बढ़ता रहता है, जिसके कारण एजेंट को इस डायनामिक बाधाओं के भीतर अपने कार्य को समायोजित और करना होता है। ARE के मुख्य घटक शामिल हैं: स्थिति बनाए रखने वाला API इंटरफेस एप्लिकेशन, वातावरण सेट, घटनाएं, अधिसूचनाएं और स्थितियां, जिसके माध्यम से उपयोगकर्ता अपनी आवश्यकताओं के अनुसार परीक्षण स्थिति को अनुकूलित कर सकते हैं।

Gaia2, ARE के महत्वपूर्ण घटकों में से एक है, जो एजेंट की जटिल वातावरण में क्षमता के मूल्यांकन पर केंद्रित है। पिछले Gaia1 मानक के विपरीत, Gaia2 एजेंट के उत्तर खोजने की क्षमता पर ध्यान नहीं देता है, बल्कि वे बदलती स्थिति, समय सीमा, API खराबी और अस्पष्ट निर्देशों के सामने प्रदर्शन के मूल्यांकन पर ध्यान देते हैं। साथ ही, Gaia2 एजेंट-एजेंट प्रोटोकॉल जैसे विभिन्न प्रोटोकॉल का समर्थन करता है, जो एजेंट के बीच सहयोग क्षमता के मूल्यांकन में मदद करता है।

Gaia2 के मूल्यांकन प्रक्रिया असंगत है, भले ही एजेंट बर्बस हो, समय लगातार आगे बढ़ता रहता है, जिससे यह एजेंट के नई घटना प्राप्त करने पर प्रतिक्रिया क्षमता के मापन में सक्षम होता है। गतिशील वातावरण में 1120 कार्यों के परीक्षण के माध्यम से वर्तमान मूल्यांकन दिखाता है कि OpenAI के GPT-5, Gaia2 मानक पर अच्छा प्रदर्शन करता है और नेता है।

मेटा के Gaia2 के अलावा, बाजार में अन्य कुछ प्रयास भी हैं जो वास्तविक वातावरण परीक्षण प्रदान करने के लिए हैं, जैसे Hugging Face के Yourbench, Salesforce के MCPEval और Inclusion AI के Inclusion Arena। इन प्लेटफॉर्म में प्रत्येक अपने विशिष्ट क्षेत्र में है, लेकिन Gaia2 एजेंट की अनुकूलन क्षमता और अकस्मात घटनाओं के प्रबंधन में विशेष रूप से ध्यान केंद्रित करता है, जो कंपनियों के लिए एजेंट के प्रदर्शन के मूल्यांकन के लिए एक अन्य प्रभावी तरीका प्रदान करता है।

आधिकारिक ब्लॉग: https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/

मुख्य बातें:
🌟 मेटा ने नए एजेंट रिसर्च एंवायरनमेंट (ARE) और Gaia2 मानक की घोषणा की है, जो एजेंट की वास्तविक दुनिया में अनुकूलन क्षमता में सुधार करेगा।
📊 Gaia2 एजेंट के बदलती स्थिति और अनिश्चितता में प्रदर्शन के मूल्यांकन पर केंद्रित है, जो पिछले मानक की तुलना में अधिक उपयोगी है।
🤖 Gaia2 के मूल्यांकन की प्रक्रिया असंगत है और एजेंट के नई घटना प्राप्त करने पर प्रतिक्रिया क्षमता के मूल्यांकन करता है, जिसमें वर्तमान OpenAI के GPT-5 का परीक्षण में अच्छा प्रदर्शन देखा गया है।

स्मार्टशारीरिकप्रदर्शनमूल्यांकन मेटा एजेंट्सरिसर्चएनवायरनमेंट गैया2

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

360 दुनिया के पहले L2-L4 स्टैक बुद्धिमान प्लेटफॉर्म के लॉन्च के साथ! सरकारी और उद्यमी एआई बदलाव के ओपन-बॉक्स-इन-इस्तेमाल के युग में प्रवेश करते हैं

360 ग्रुप ने एंटरप्राइज AI प्लेटफॉर्म लॉन्च किया, जो L2 से L4 तक की क्षमताओं वाला दुनिया का पहला ऑपरेटिंग सिस्टम है। SEAF फैक्ट्री को अपग्रेड करके सरकार और व्यवसायों के लिए वन-स्टॉप AI समाधान प्रदान करता है।....

Oct 29, 2025

110

मिनीमैक्स द्वारा M2 अनुमान बड़े मॉडल प्रस्तुत किया गया: 230 बिलियन पैरामीटर, 100 टोकन/सेकंड स्मार्ट एजेंट के लिए डिज़ाइन किया गया

MiniMax ने नया ओपन-सोर्स मॉडल M2 लॉन्च किया, जो 2300 अरब पैरामीटर्स के साथ स्मार्ट एजेंट के लिए डिज़ाइन किया गया है। यह प्रति सेकंड 100 टोकन की तेज़ गति से काम करता है, जो रीयल-टाइम इंटरेक्शन के लिए आदर्श है।....

Oct 28, 2025

140

मिनीमैक ओपन सोर्स M2 मॉडल: उच्च प्रदर्शन आईएआई कोडिंग और एजेंट सक्षम है, प्रतिद्वंद्वी के केवल 8% लागत

2025 के 27 अक्टूबर को, मिनीमैक बड़ा भाषा मॉडल मिनीमैक M2 ओपन सोर्स किया गया। इस मॉडल का डिज़ाइन एजेंट कार्य प्रवाह और एंड-टू-एंड कोडिंग के लिए किया गया है, MoE आर्किटेक्चर का उपयोग करता है, दक्षता और प्रदर्शन उत्कृष्ट है: क्लॉड सोनेट के केवल 8% लागत, गति लगभग दो गुना बढ़ गई, डेवलपर्स और व्यवसाय के लिए लाभदायक आईएआई समाधान है।

Oct 27, 2025

AI छवि संपादन में अभूतपूर्व प्रगति! बाइट डाउन और हांग कॉन्ग में एक साथ स्वतंत्र ड्रीमोम्नी2 AI अब अमूर्त अवधारणाओं के बुझाने की समस्या हल करता है

बाइटडांस ने हांगकांग की तीन यूनिवर्सिटी के साथ मिलकर DreamOmni2 सिस्टम ओपन-सोर्स किया। यह AI इमेज एडिटिंग में क्रांतिकारी सुधार लाता है, टेक्स्ट और इमेज दोनों को एक साथ प्रोसेस करता है, जिससे इमेज जनरेशन तकनीक का विकास हो रहा है।....

Oct 27, 2025

150

AI दैनिक: टेंग्यून ने एक नई IMA2.0 जारी की; माइक्रोसॉफ्ट ने Copilot के साथ एक शक्तिशाली अपडेट जारी किया; अलीबाबा क्वार्क AI चश्मा डिलीवरी के लिए उपलब्ध है

【AI दैनिक】 चंद्रमा के अंधेरे ने Kimi k2 मॉडल के प्रदर्शन के लिए तारीफ मिली GPT-5 से आगे, और इस कंपनी ने अपने अगले नए खंड में सैकड़ों मिलियन डॉलर के निवेश के साथ करीब चार महीने में निवेश के बाद। घरेलू AI बड़े मॉडल क्षेत्र में लगातार गर्म है, डेवलपर्स प्लेटफॉर्म के माध्यम से नवीनतम उत्पाद अपडेट के बारे में जान सकते हैं।

Oct 24, 2025

180

विडू क्यू2 रेफरेंस स्टूडियो मास प्लेटफॉर्म पूरी तरह से एपीआई के लिए खुला है

हाल ही में, स्टूडियो ने विडू क्यू2 रेफरेंस वीडियो बड़ा मॉडल एपीआई के पूर्ण रूप से एक्सेस के लिए घोषणा की, जो आईए वीडियो जनरेशन तकनीक के 'उपयोगी' से 'शिल्प' तक अहम कदम को दर्शाता है। विडू क्यू2 अत्यधिक संगतता बनाए रखने में अद्वितीय मूल्य दिखाता है, विशेष रूप से विज्ञापन, उत्पाद प्रदर्शन के क्षेत्रों में, न केवल उत्पाद विवरण को बिल्कुल बरकरार रख सकता है, बल्कि आईए वीडियो में भावनात्मक प्रस्तुति को भी जोड़ सकता है, जो ब्रांड के प्रति प्रतिकूलता और उपयोगकर्ता रूपांतरण को बढ़ा सकता है। विडू क्यू2 के उत्सर्ग ने इंटरैक्टिव मनोरंजन, एनिमेशन, विज्ञापन ई-कॉमर्स उद्योग के लिए एक नई दिशा दी है।

Oct 23, 2025

140

बैजियांग ने नवीनतम चिकित्सा मॉडल M2Plus पेश किया, जो चिकित्सा भ्रम दर में गंभीर रूप से कम हो गई है

बैजियांग मॉडल ने चिकित्सा मॉडल Baichuan-M2Plus लॉन्च किया, जिसके अपनाने के लिए बैजियांग छोटा एसएस का अपग्रेड किया गया है और API इंटरफ़ेस खोला गया है। परीक्षण में, इस मॉडल की चिकित्सा भ्रम दर आम मॉडल की तुलना में गंभीर रूप से कम है, जो DeepSeek की तुलना में लगभग तीन गुना कम है, अमेरिकी OpenEvidence एप्लिकेशन के मुकाबले बेहतर प्रदर्शन करता है।

Oct 22, 2025

150

एआई डेली: ओपनएआई ने ब्राउज़र एटलस जारी किया; टॉंगई क्वेन 3-वीएल में 2 बिलियन, 32 बिलियन मॉडल साइज जोड़े गए; बाइशुन ने पुनरावर्ती साक्ष्य बढ़ाने वाले बड़े मॉडल जारी किए

OpenAI ने ChatGPT Atlas ब्राउज़र लॉन्च किया, जो AI असिस्टेंट के साथ Chrome को चुनौती देता है। हर टैब में एजेंट मोड से स्मार्ट इंटरैक्शन, इंटरनेट प्लेटफॉर्म बनने की महत्वाकांक्षा दिखाता है।....

Oct 22, 2025

बेनचुआन ने संचालित साक्ष्य बढ़ाने वाले मॉडल M2Plus जारी किया, डॉक्टर के लिए चैटजीपीटी बनाएं

बाइचुआन ने Baichuan-M2Plus मेडिकल मॉडल लॉन्च किया, जिसमें मेडिकल हॉल्यूसिनेशन दर सामान्य मॉडल्स से काफी कम है। यह DeepSeek से 3 गुना बेहतर और OpenEvidence को पीछे छोड़ता है। नई तकनीक से मेडिकल प्रश्नों के जवाबों की सटीकता बढ़ी है।....

Oct 22, 2025

140

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

अलीबाबा के टोंगई कियानवेन ने Qwen3-VL के 2B और 32B मॉडल जोड़े, जो हल्के से हाई-परफॉर्मेंस विज़न-लैंग्वेज कार्यों को कवर करते हैं और मोबाइल डिवाइस पर चल सकते हैं। इंस्ट्रक्ट मॉडल तेज़ और स्थिर है, जबकि थिंकिंग मॉडर तर्क पर केंद्रित है। विकास सुविधा और लचीलेपन में सुधार।....

Oct 22, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

मिनीमैक ओपन सोर्स M2 मॉडल: उच्च प्रदर्शन आईएआई कोडिंग और एजेंट सक्षम है, प्रतिद्वंद्वी के केवल 8% लागत

विडू क्यू2 रेफरेंस स्टूडियो मास प्लेटफॉर्म पूरी तरह से एपीआई के लिए खुला है

बैजियांग ने नवीनतम चिकित्सा मॉडल M2Plus पेश किया, जो चिकित्सा भ्रम दर में गंभीर रूप से कम हो गई है

बेनचुआन ने संचालित साक्ष्य बढ़ाने वाले मॉडल M2Plus जारी किया, डॉक्टर के लिए चैटजीपीटी बनाएं

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

संबंधित AI समाचार अनुशंसाएँ

मिनीमैक ओपन सोर्स M2 मॉडल: उच्च प्रदर्शन आईएआई कोडिंग और एजेंट सक्षम है, प्रतिद्वंद्वी के केवल 8% लागत

विडू क्यू2 रेफरेंस स्टूडियो मास प्लेटफॉर्म पूरी तरह से एपीआई के लिए खुला है

बैजियांग ने नवीनतम चिकित्सा मॉडल M2Plus पेश किया, जो चिकित्सा भ्रम दर में गंभीर रूप से कम हो गई है

बेनचुआन ने संचालित साक्ष्य बढ़ाने वाले मॉडल M2Plus जारी किया, डॉक्टर के लिए चैटजीपीटी बनाएं

अली टोंगyi Qwen3-VL में 2B, 32B दो मॉडल आकार जोड़े गए हैं फोन में सुविधापूर्वक चलाया जा सकता है

GEO Services