अर्क पुरस्कार के नवीनतम परीक्षण परिणामों के अनुसार, मुख्यधारा के एआई मॉडल के प्रदर्शन और लागत में भारी अंतर है। जनरल रीजनिंग क्षमता के मूल्यांकन के लिए अर्क-एजीआई-2 मानक परीक्षण में, GPT-5 (उच्च) का स्कोर 9.9% है और प्रत्येक कार्य की लागत 0.73 डॉलर है। जबकि Grok4 (सोचने वाला) का प्रदर्शन थोड़ा बेहतर है, इसकी सटीकता 16% है, लेकिन इसकी लागत अधिक है, प्रत्येक कार्य के लिए 2 से 4 डॉलर के बीच है। इसका अर्थ है कि जटिल रीजनिंग कार्यों में, Grok4 के प्रदर्शन में फायदा है, लेकिन इसकी लागत दक्षता GPT-5 से बहुत कम है।
अर्क-एजीआई मानक पर अग्रणी भाषा मॉडल के प्रदर्शन और लागत की तुलना। | चित्र: अर्क-एजीआई
कम आवश्यकताओं वाले अर्क-एजीआई-1 परीक्षण में, ग्रॉक4 फिर से 68% की सटीकता के साथ अग्रणी रहा, GPT-5 के 65.7% के थोड़ा ऊपर। यद्यपि ग्रॉक4 की सटीकता अधिक है, लेकिन इसकी प्रत्येक कार्य के लिए लगभग 1 डॉलर की लागत अधिक है, जबकि GPT-5 की लागत 0.51 डॉलर है, जिसके कारण इस परीक्षण में GPT-5 अधिक लाभदायक है। हालांकि, xAI संभवतः मूल्य समायोजन के माध्यम से इस अंतर को कम कर सकता है।
इसके अलावा, रिपोर्ट में GPT-5 के हल्के संस्करण के बारे में भी उल्लेख किया गया है। GPT-5Mini AGI-1 और AGI-2 पर क्रमशः 54.3% और 4.4% के स्कोर पर आता है, जबकि लागत क्रमशः 0.12 डॉलर और 0.20 डॉलर है। छोटे आकार के GPT-5Nano AGI-1 पर 16.5% (0.03 डॉलर) और AGI-2 पर 2.5% (0.03 डॉलर) तक पहुंचता है।
अर्क-एजीआई-1 पर ग्रॉक4, GPT-5 और छोटे मॉडल संस्करणों के परीक्षण परिणाम। | चित्र: अर्क पुरस्कार
ध्यान देने योग्य बात यह है कि अर्क-एजीआई-1 परीक्षण में, जनवरी 2024 में जारी o3-preview मॉडल ने अद्भुत 80% की सटीकता के साथ अन्य प्रतिस्पर्धियों को पीछे छोड़ दिया, लेकिन इसकी लागत अन्य प्रतिस्पर्धियों से बहुत अधिक है। यद्यपि ओपनएआई ने अपने GPT-5 प्रदर्शन में अर्क पुरस्कार का उल्लेख नहीं किया है, लेकिन द इनफॉर्मेशन की रिपोर्ट के अनुसार, इसके बाद के चैट संस्करण के अनुकूलन के लिए कंपनी ने o3-preview की क्षमता बहुत कम कर दी है।
ऊपर बताए गए मानक परीक्षण के अलावा, अर्क-एजीआई-3 भी चल रहा है, जिसमें मॉडल को एक खेल के जैसे अंतरक्रिया वाले वातावरण में कार्य करने के लिए बार-बार प्रयास करना होता है। यहां तक कि मनुष्य आसानी से इसे हल कर सकते हैं, लेकिन अधिकांश AI एजेंट दृश्य बौद्धिक खेलों में अभी भी चुनौती का सामना कर रहे हैं।