हाल की एक अध्ययन में, OpenAI अनुसंधान टीम ने MLE-bench नामक एक नया बेंचमार्क परीक्षण पेश किया है, जिसका उद्देश्य AI एजेंटों की मशीन लर्निंग इंजीनियरिंग में प्रदर्शन का मूल्यांकन करना है।
यह अध्ययन विशेष रूप से Kaggle से संबंधित 75 मशीन लर्निंग इंजीनियरिंग प्रतियोगिताओं पर ध्यान केंद्रित करता है, जिसका उद्देश्य वास्तविक दुनिया में आवश्यक विभिन्न कौशलों का परीक्षण करना है, जिसमें मॉडल प्रशिक्षण, डेटा सेट तैयार करना और प्रयोग चलाना शामिल है।
मूल्यांकन को बेहतर बनाने के लिए, अनुसंधान टीम ने Kaggle सार्वजनिक रैंकिंग के आधार डेटा का उपयोग किया, और प्रत्येक प्रतियोगिता के लिए मानव बेंचमार्क स्थापित किया। प्रयोग में, उन्होंने ओपन-सोर्स एजेंट आर्किटेक्चर का उपयोग करते हुए कुछ अग्रणी भाषा मॉडलों का परीक्षण किया। परिणाम दर्शाते हैं कि सर्वोत्तम प्रदर्शन करने वाली सेटिंग - OpenAI का o1-preview और AIDE आर्किटेक्चर का संयोजन - 16.9% प्रतियोगिताओं में Kaggle के कांस्य पदक स्तर तक पहुँच गया।
इतना ही नहीं, अनुसंधान टीम ने AI एजेंटों के संसाधन विस्तार रूपों पर गहन चर्चा की और परिणामों पर पूर्व-प्रशिक्षण के प्रदूषण प्रभाव का अध्ययन किया। उन्होंने यह जोर दिया कि ये अध्ययन परिणाम भविष्य में AI एजेंटों की मशीन लर्निंग इंजीनियरिंग में क्षमताओं को समझने के लिए आधार प्रदान करते हैं। भविष्य के अनुसंधान को बढ़ावा देने के लिए, टीम ने बेंचमार्क परीक्षण का कोड ओपन-सोर्स किया है, ताकि अन्य शोधकर्ता इसका उपयोग कर सकें।
इस अध्ययन की शुरुआत मशीन लर्निंग क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है, विशेष रूप से AI एजेंटों की इंजीनियरिंग क्षमताओं का मूल्यांकन और सुधार कैसे किया जाए। वैज्ञानिकों को उम्मीद है कि MLE-bench के माध्यम से, AI प्रौद्योगिकी के विकास के लिए एक अधिक वैज्ञानिक मूल्यांकन मानक और व्यावहारिक आधार प्रदान किया जा सकेगा।
परियोजना का प्रवेश द्वार: https://openai.com/index/mle-bench/
मुख्य बिंदु:
🌟 MLE-bench एक नया बेंचमार्क परीक्षण है, जिसका उद्देश्य AI एजेंटों की मशीन लर्निंग इंजीनियरिंग क्षमताओं का मूल्यांकन करना है।
🤖 अध्ययन में 75 Kaggle प्रतियोगिताएं शामिल हैं, जो एजेंटों के मॉडल प्रशिक्षण और डेटा प्रोसेसिंग क्षमताओं का परीक्षण करती हैं।
📊 OpenAI का o1-preview और AIDE आर्किटेक्चर संयोजन 16.9% प्रतियोगिताओं में Kaggle के कांस्य पदक स्तर तक पहुँच गया।