हाल ही में, MetaGPT टीम ने एक एंड-टू-एंड ऑटोमेशन टेस्टिंग टूल RealDevWorld के साथ भारी घोषणा की है, जो AI-संचालित सॉफ्टवेयर विकास के क्षेत्र में चर्चा के केंद्र में आ गया है। इस टूल के अद्भुत प्रदर्शन और दक्ष टेस्टिंग क्षमता के कारण, RealDevBench बेंचमार्क टेस्ट में 92% की सटीकता प्राप्त की गई, जबकि मूल्यांकन संगतता क्लॉड जैसे अग्रणी मॉडल के ऊपर भी रही।

 RealDevWorld: एंड-टू-एंड ऑटोमेशन टेस्टिंग में क्रांतिकारी उपलब्धि  

RealDevWorld MetaGPT द्वारा उनके बहु-एजेंट फ्रेमवर्क पर विकसित एक नया ऑटोमेशन टेस्टिंग टूल है, जिसका उद्देश्य कोड जनरेशन से गुणवत्ता गारंटी तक के पूरे चेन के स्वायत्तता को प्राप्त करना है। इस टूल AppEvalPilot मॉड्यूल के माध्यम से, एक विशेषज्ञ टेस्ट इंजीनियर के प्रणालीगत प्रक्रिया की नकल करता है, जो उत्पाद डिज़ाइन और परिदृश्य सीमा के अनुसार स्वीकृति परीक्षण कर सकता है, एक साथ 7 × 24 घंटे अविचलित पूर्ण टेस्टिंग का समर्थन करता है।

image.png

पारंपरिक टेस्टिंग टूल के साथ तुलना में, RealDevWorld डायनामिक मूल्यांकन तंत्र का उपयोग करता है, जो स्थैतिक बेंचमार्क टेस्टिंग की सीमाओं को छोड़ देता है और जटिल विकास परिदृश्यों के अनुकूल बनता है। इसकी दक्षता ध्यान खींचती है: एक ऐप के 15-20 फीचर कंपोनेंट के पूर्ण मूल्यांकन के लिए औसतन 8-9 मिनट का समय लगता है, और प्रत्येक परीक्षण की लागत लगभग 0.26 डॉलर तक होती है, जो विकास टीम के टेस्टिंग खर्च को बहुत कम कर देता है।

 92% सटीकता, Claude के मूल्यांकन संगतता को पार करता है  

RealDevBench बेंचमार्क टेस्ट में, RealDevWorld ने शक्तिशाली प्रदर्शन दिखाया, जिसमें 92% सटीकता रही और मूल्यांकन संगतता में Anthropic के Claude मॉडल को पार कर गया। इस अप्रत्याशित उपलब्धि के पीछे MetaGPT के बहु-एजेंट सहयोग ढांचे के अनुकूलन के कारण है, जिसमें GPT-4o और Claude3.5-Sonnet की शक्ति का संयोजन शामिल है।  

RealDevWorld स्मार्ट टास्क विभाजन और सहयोग तंत्र के माध्यम से, कोड में छिपे संभावित समस्याओं की निश्चित रूप से पहचान कर सकता है और उच्च गुणवत्ता वाली टेस्ट रिपोर्ट बना सकता है। AIbase विश्लेषण के अनुसार, यह प्रदर्शन लाभ जटिल सॉफ्टवेयर इंजीनियरिंग कार्य (जैसे कोड जनरेशन, डीबगिंग और पुष्टि) में अच्छा प्रदर्शन करता है, विशेष रूप से उच्च विश्वसनीयता की आवश्यकता वाले व्यावसायिक एप्लिकेशन में उपयुक्त है।

 पूर्ण श्रृंखला स्वायत्तता: कोड जनरेशन से गुणवत्ता गारंटी तक  

System: एकीकृत कोड बेस, तीन एंड्स को खाते हैं  

RealDevWorld की एक बड़ी विशेषता एक एकीकृत कोड बेस है, जो डेस्कटॉप, मोबाइल और वेब तीन मुख्य प्लेटफॉर्म के समर्थन करता है। इसका अर्थ यह है कि विकासकर्ता के लिए अलग-अलग प्लेटफॉर्म के लिए अलग टेस्ट स्क्रिप्ट लिखना आवश्यक नहीं है, जो एक अंतर-प्लेटफॉर्म टेस्टिंग प्रक्रिया को बहुत सरल बना देता है। वेब एप्लिकेशन के UI परीक्षण, मोबाइल एप्लिकेशन के अंतरक्रिया परीक्षण, या डेस्कटॉप सॉफ्टवेयर के कार्यक्षमता मूल्यांकन के लिए, RealDevWorld एक समान टेस्ट अनुभव प्रदान कर सकता है।  

MetaGPT के बहु-एजेंट ढांचे के गहरे एकीकरण के माध्यम से, RealDevWorld स्वायत्त रूप से टेस्ट केस जनरेट कर सकता है, रिग्रेशन टेस्ट चला सकता है और विस्तृत निदान प्रतिक्रिया प्रदान कर सकता है। इसका डायनामिक मूल्यांकन तंत्र एप्लिकेशन के अपडेट के अनुसार टेस्ट रणनीति के अनुकूलन कर सकता है, ताकि टेस्ट परिणाम हमेशा वास्तविक आवश्यकताओं के साथ उच्च संगतता में रहे।

 कम लागत उच्च दक्षता: टेस्टिंग की आर्थिकता को पुनर्निर्मित करता है  

RealDevWorld न केवल शक्तिशाली है, बल्कि इसकी आर्थिकता भी ध्यान खींचती है। आधिकारिक आंकड़ों के अनुसार, इस टूल के द्वारा 15-20 फीचर कंपोनेंट के मूल्यांकन के लिए 8-9 मिनट का समय लगता है, और प्रत्येक परीक्षण की लागत केवल 0.26 डॉलर तक होती है। इस उच्च दक्षता और कम लागत वाली विशेषता के कारण, इसे छोटे-मध्यम विकास टीमों और बड़े उद्यमों के लिए आदर्श विकल्प बना दिया गया है।  

AIbase के अनुसार, RealDevWorld के उद्भव ने AI-संचालित विकास में टेस्टिंग के प्रवेश बाधा को बहुत कम कर दिया है, जो विकासकर्ताओं को अधिक तेजी से उच्च गुणवत्ता वाले सॉफ्टवेयर उत्पाद प्रदान करने में सक्षम बनाता है।

 भविष्य की दृष्टि: AI टेस्टिंग के लिए उद्योग के नए मानक  

RealDevWorld के उद्घोषणा ने MetaGPT के AI ऑटोमेशन टेस्टिंग के क्षेत्र में महत्वपूर्ण अप्रत्याशित उपलब्धि को चिह्नित किया है। पारंपरिक टेस्टिंग फ्रेमवर्क जैसे Selenium या Cypress के साथ तुलना में, RealDevWorld AI-संचालित डायनामिक मूल्यांकन और बहु-एजेंट सहयोग के माध्यम से अधिक लचीलापन और बुद्धिमान स्तर प्रदान करता है। उद्योग विशेषज्ञों के अनुमान हैं कि यह टूल 2025 में सॉफ्टवेयर टेस्टिंग के क्षेत्र में उद्योग के मानक बन सकता है, विशेष रूप से तेजी से अपडेट होने वाले स्क्रम विकास परिदृश्य में।  

MetaGPT टीम ने कहा कि RealDevWorld आगे अधिक अनुकूलित किया जाएगा, अधिक प्रोग्रामिंग भाषाओं और अधिक जटिल टेस्ट परिदृश्यों का समर्थन करेगा।

परियोजना गृह: https://realdevworld.metadl.com/

पेपर: https://arxiv.org/pdf/2508.14104