कंप्यूटर उपयोग प्रतिभा (Computer Use Agent) के क्षेत्र में, हाल ही में एक रुचि-जनक प्रगति हुई है। शांghai Jiaotong University और SII के अनुसंधान टीम ने सिर्फ 312 व्यक्तिगत रूप से चिह्नित ऑपरेशन ट्रेज़री का उपयोग करके, नामांकित PC Agent-E नामक नवीन ओपन सोर्स कंप्यूटर उपयोग प्रतिभा को प्रशिक्षित किया, जिसका प्रदर्शन 241% बढ़ गया है और क्लॉड 3.7सॉननेट को पार देकर Windows प्रणाली पर नए पीढ़ी का सर्वश्रेष्ठ मॉडल बन गया।

Anthropic द्वारा क्लॉड कंप्यूटर उपयोग की रिलीज़ के बाद, कंप्यूटर उपयोग प्रतिभा के विकास का ध्यान रहता आया है। OpenAI ने भी ऑपरेटर जारी किया है, जिसे बल्पर सीखने तकनीक का उपयोग करके कंप्यूटर उपयोग प्रतिभा की क्षमता में वृद्धि की है। हालांकि, उद्योग में व्यापक रूप से माना जाता है कि इस प्रकार के स्तर तक पहुँचने के लिए बहुत अधिक पथरीले डेटा और जटिल बल्पर सीखने एल्गोरिदम की आवश्यकता होती है। इस दृष्टिकोण के खिलाफ, शांghai Jiaotong University और SII के टीम ने वास्तविक परिणामों के माध्यम से इस धारणा को खंडित किया: कुछ उच्च गुणवत्ता वाले डेटा का उपयोग करने से पर्याप्त होता है।

image.png

इस अनुसंधान का महत्वपूर्ण भाग व्यक्तिगत ऑपरेशन ट्रेज़री को कैसे व्यावहारिक ढंग से उपयोग किया जा सकता है था। अनुसंधान टीम ने दो अनुसंधानकर्ताओं के दिन तकनीकी सहायता के बाद, PC Tracker नामक विकसित टूल का उपयोग करके 312 वास्तविक ऑपरेशन ट्रेज़री को इकट्ठा किया। ये ट्रेज़री नियमित कार्यों के विवरण, स्क्रीन छायांकन, और विस्तृत कीबोर्ड और माउस संचालन रिकॉर्ड को शामिल करती हैं, जिससे डेटा की सटीकता बढ़ गई। इसके बाद, टीम ने इन ट्रेज़री के लिए "चौखट प्रक्रिया संपादन" का उपयोग किया, जिससे प्रत्येक ऑपरेशन के पीछे विचार-प्रक्रिया को जोड़ा गया, जिससे डेटा और पूर्ण हो गया।

मॉडल के प्रदर्शन को बढ़ाने के लिए, टीम ने "ट्रेज़री सुधार" तकनीक का उपयोग किया। इसमें Claude3.7सॉननेट का उपयोग करके, प्रत्येक स्टेप पर विभिन्न तर्कपूर्ण ऑपरेशन निर्णयों को संश्लेषित किया गया, जो न केवल ट्रेज़री डेटा के विविधता को बढ़ाता है, बल्कि प्रशिक्षण की दक्षता को भी बढ़ाता है। अंत में, PC Agent-E ने WindowsAgentArena-V2 पर परीक्षण के दौरान क्लॉड 3.7सॉननेट के "एक्सटेंडेड थिंकिंग" मोड को पार करके अच्छा प्रदर्शन दिखाया।

image.png

इस अनुसंधान के परिणाम ने दिखाया कि उच्च गुणवत्ता वाले कम से कम डेटा का उपयोग करने से बेहतर प्रतिभा का प्रशिक्षण किया जा सकता है, बहुत अधिक लेबलिंग की आवश्यकता के बिना। यह भविष्य के और बुद्धिमान डिजिटल प्रतिनिधियों के विकास की दिशा निर्देशित करता है, और टीम भी मानती है कि ट्रेज़री डेटा की गुणवत्ता को सुधारने से डेटा की आवश्यकता कम की जा सकती है, जिससे प्रतिभा की स्वतंत्रता में वृद्धि होगी।

पेपर का लिंक: https://arxiv.org/abs/2505.13909

कोड का लिंक: https://github.com/GAIR-NLP/PC-Agent-E

मॉडल का लिंक: https://huggingface.co/henryhe0123/PC-Agent-E

डेटा का लिंक: https://huggingface.co/datasets/henryhe0123/PC-Agent-E