कृत्रिम बुद्धिमत्ता के क्षेत्र में, एक और महान समाचार आया। आज सुबह, प्रसिद्ध बड़े मॉडल ट्रेनिंग प्लेटफॉर्म Together.ai और Agentica ने ओपन सोर्स AI एजेंट फ्रेमवर्क DeepSWE के साथ एक संयुक्त रूप से लॉन्च किया। यह नवाचार प्रणाली अलीबाबा के हाल ही में ओपन सोर्स Qwen3-32B मॉडल पर आधारित है, जिसे पूरी तरह से सुदृढ़ शिक्षण के माध्यम से विकसित किया गया है।

DeepSWE के ओपन सोर्स जानकारी Hugging Face पर उपलब्ध है, मॉडल भार के साथ-साथ ट्रेनिंग विधि, लॉग और डेटासेट जैसे सभी संबंधित विवरण भी साझा किए गए हैं, जिसका उद्देश्य विकासकों की सहायता करना है ताकि वे इस एजेंट प्रणाली के बारे में गहराई से सीख सकें और इसे सुधार सकें।

image.png

SWE-Bench-Verified परीक्षण परिणाम के अनुसार, DeepSWE का मूल्यांकन 64k के अधिकतम संदर्भ लंबाई और 100 के अधिकतम वातावरण चरण पर किया गया, 16 बार चलाए जाने के बाद Pass@1 सटीकता 42.2% तक पहुंच गई। मिश्रित परीक्षण के बाद, इसकी क्षमता बढ़कर 59% हो गई, जिससे यह सभी ओपन सोर्स एजेंट फ्रेमवर्क में शीर्ष पर रहा।

DeepSWE के ट्रेनिंग में rLLM फ्रेमवर्क का उपयोग किया गया है, जो भाषा बुद्धिमान एजेंट के बाद के ट्रेनिंग के लिए विशेष रूप से डिज़ाइन किया गया प्रणाली है। इसे 64 H100 GPU पर R2E-Gym ट्रेनिंग वातावरण से 4500 वास्तविक दुनिया सॉफ्टवेयर इंजीनियरिंग कार्यों पर 6 दिनों तक ट्रेन किया गया। इन कार्यों में GitHub समस्याओं के समाधान, नए कोड फीचर के कार्यान्वयन और डीबगिंग शामिल हैं, जो वास्तविक दुनिया सॉफ्टवेयर इंजीनियरिंग की विविधता को दर्शाते हैं।

ट्रेनिंग के दौरान, DeepSWE वातावरण के साथ अंतःक्रिया के माध्यम से व्यापक कोड लाइब्रेरी में घूमना, लक्षित रूप से कोड संपादित करना, बिल्ड और परीक्षण के shell कमांड चलाना और वास्तविक पुल अनुरोधों के प्रबंधन में समाधान को अनुकूलित करना सीखता है। डेटासेट प्रबंधन में, R2E-Gym सबसेट में 4500 समस्याओं का उपयोग किया गया, जिसके कारण ट्रेनिंग डेटा की शुद्धता और संबंधितता सुनिश्चित की गई।

ट्रेनिंग वातावरण R2E-Gym के आसपास बनाया गया है, जो विस्तारयोग्य गुणवत्ता वाले कार्यान्वयन सॉफ्टवेयर इंजीनियरिंग वातावरण का समर्थन करता है। पुरस्कार तंत्र में एक दुर्लभ परिणाम पुरस्कार मॉडल का उपयोग किया गया है, जिसमें केवल जब उत्पादित पैच सभी परीक्षणों को पास करता है तो धनात्मक पुरस्कार दिया जाता है, जो अधिक प्रभावी शिक्षा को बढ़ावा देता है।

DeepSWE के ट्रेनिंग में सुधारित GRPO++ एल्गोरिथ्म का उपयोग किया गया है, जो कई नवाचारों के संयोजन के माध्यम से अधिक स्थिर और प्रभावी ट्रेनिंग प्रक्रिया की ओर ले जाता है। इसके अलावा, अनुसंधानकर्ताओं को पता चला कि सॉफ्टवेयर इंजीनियरिंग कार्यों के लिए आउटपुट token संख्या बढ़ाने का प्रभाव निर्जीव है, जबकि रोलिंग संख्या विस्तार ने मॉडल क्षमता को निश्चित रूप से बढ़ा दिया।

इन सभी प्रयासों के कारण, DeepSWE एक बहुत ही संभावना वाला AI एजेंट प्रणाली बन गया है, जो सुदृढ़ शिक्षण के वास्तविक अनुप्रयोगों में उन्नति को बढ़ावा देता है।

ओपन सोर्स पता: https://huggingface.co/agentica-org/DeepSWE-Preview

मुख्य बातें:

🌟 DeepSWE Qwen3-32B मॉडल पर आधारित है, पूरी तरह से सुदृढ़ शिक्षण के माध्यम से विकसित किया गया है, ओपन सोर्स जानकारी पूरी तरह से जारी कर दी गई है।  

🏆 SWE-Bench-Verified परीक्षण में, DeepSWE अच्छा प्रदर्शन किया, Pass@1 सटीकता 59% तक पहुंच गई, जो सभी ओपन सोर्स एजेंट फ्रेमवर्क में शीर्ष पर रहा।  

💡 rLLM फ्रेमवर्क और सुधारित GRPO++ एल्गोरिथ्म के उपयोग के साथ, DeepSWE वास्तविक सॉफ्टवेयर इंजीनियरिंग कार्यों में अपनी मजबूत शिक्षा क्षमता और अनुप्रयोग क्षमता को दर्शाता है।