एक नए कृत्रिम बुद्धिमत्ता प्रोग्रामिंग चैलेंज में परिणाम व्यापक रूप से ध्यान आकर्षित कर रहे हैं। Laude Institute द्वारा आयोजित K-पुरस्कार प्रतियोगिता के हाल ही में पहला विजेता घोषित किया गया, जिसमें अनुमान से भिन्न रूप से, 50,000 डॉलर के पुरस्कार के लिए ब्राजीली प्रोग्रामर एडुआर्डो रोचा डी एंड्राडे (Eduardo Rocha de Andrade) केवल 7.5% प्रश्नों के सही उत्तर देने में सफल रहे। यह प्रदर्शन निश्चित रूप से कृत्रिम बुद्धिमत्ता के क्षेत्र में वर्तमान स्थिति के लिए एक चेतावनी के रूप में कार्य करता है।
K-पुरस्कार Databricks और Perplexity के सह-संस्थापक एंडी कॉनविंस्की (Andy Konwinski) द्वारा शुरू किया गया था, जिसका उद्देश्य AI मॉडल के वास्तविक प्रोग्रामिंग समस्याओं पर प्रदर्शन को बढ़ावा देना है। कॉनविंस्की ने कहा: "हम एक वास्तविक रूप से चुनौतिपूर्ण मानक बनाने में खुश हैं।" वर्तमान में फैले परीक्षण प्रणालियों की तुलना में K-पुरस्कार के डिजाइन अधिक कठिन है, "अशुद्धि रहित" तरीके के माध्यम से टेस्ट मॉडल की क्षमता को ट्रेनिंग सेट के प्रभाव से बचाने के लिए अपनाया गया है।
चित्र स्रोत टिप्पणी: छवि AI द्वारा उत्पन्न की गई है, छवि प्रदाता Midjourney
SWE-Bench जैसे अन्य मानक परीक्षणों के विपरीत, K-पुरस्कार मॉडल को जमा करने से पहले विशिष्ट समस्याओं के साथ परिचित नहीं होने देता है, बल्कि अंतिम तिथि के बाद GitHub से नए सवालों का उपयोग करता है। यद्यपि कई AI प्रोग्रामिंग उपकरण उभरे हैं, लेकिन यह नया चुनौती मॉडल की सीमाओं को दर्शाता है। K-पुरस्कार के शीर्ष परिणाम SWE-Bench में 75% शीर्ष अंक के बीच एक तीखा तुलना बनाते हैं, जिसके कारण लोगों में एक मानक परीक्षण के प्रदूषण के बारे में संदेह उत्पन्न हो गया है।
कॉनविंस्की भविष्य के बारे में आशावादी हैं और यह घोषणा करते हैं कि यदि कोई ओपन-सोर्स मॉडल परीक्षण में 90% से अधिक अंक प्राप्त करता है, तो वह 1 मिलियन डॉलर का पुरस्कार देंगे। वह उम्मीद करते हैं कि यह चुनौती पूरे उद्योग के लिए एक चेतावनी बन जाएगी, जिससे लोगों को वर्तमान AI प्रौद्योगिकी में बहुत अधिक सुधार की आवश्यकता होगी। उन्होंने जोड़ा: "अगर हम 10% अंक तक नहीं पहुंच सकते, तो वास्तविकता बहुत कठोर होगी।"
इस प्रतियोगिता ने AI मूल्यांकन मानकों के बारे में उद्योग में गर्म चर्चा शुरू कर दी है, जिसमें कई अनुसंधानकर्ता मानते हैं कि K-पुरस्कार जैसे परियोजनाएं AI के मूल्यांकन समस्याओं के समाधान के लिए आवश्यक हैं। प्रिंसटन विश्वविद्यालय के अनुसंधानकर्ता सायाश कपूर (Sayash Kapoor) कहते हैं: "हमें वर्तमान मानकों के मूल्यांकन के लिए नए परीक्षण की आवश्यकता है, बिना ऐसे परीक्षण के, हम समस्या के मूल की जांच नहीं कर सकते।"
K-पुरस्कार AI मॉडल के लिए नए चुनौती मानकों की स्थापना करता है और पूरे उद्योग के लिए एक पुनर्विचार के अवसर प्रदान करता है, जिससे वर्तमान में कृत्रिम बुद्धिमत्ता तकनीक और उनके अनुप्रयोग की विश्वसनीयता के बारे में फिर से विचार करने के लिए लोगों को बाध्य करता है।