अर्क पुरस्कार के नवीनतम परीक्षण परिणामों के अनुसार, मुख्यधारा के एआई मॉडल के प्रदर्शन और लागत में भारी अंतर है। जनरल रीजनिंग क्षमता के मूल्यांकन के लिए अर्क-एजीआई-2 मानक परीक्षण में, GPT-5 (उच्च) का स्कोर 9.9% है और प्रत्येक कार्य की लागत 0.73 डॉलर है। जबकि Grok4 (सोचने वाला) का प्रदर्शन थोड़ा बेहतर है, इसकी सटीकता 16% है, लेकिन इसकी लागत अधिक है, प्रत्येक कार्य के लिए 2 से 4 डॉलर के बीच है। इसका अर्थ है कि जटिल रीजनिंग कार्यों में, Grok4 के प्रदर्शन में फायदा है, लेकिन इसकी लागत दक्षता GPT-5 से बहुत कम है।

QQ20250808-092121.png

अर्क-एजीआई मानक पर अग्रणी भाषा मॉडल के प्रदर्शन और लागत की तुलना। | चित्र: अर्क-एजीआई

कम आवश्यकताओं वाले अर्क-एजीआई-1 परीक्षण में, ग्रॉक4 फिर से 68% की सटीकता के साथ अग्रणी रहा, GPT-5 के 65.7% के थोड़ा ऊपर। यद्यपि ग्रॉक4 की सटीकता अधिक है, लेकिन इसकी प्रत्येक कार्य के लिए लगभग 1 डॉलर की लागत अधिक है, जबकि GPT-5 की लागत 0.51 डॉलर है, जिसके कारण इस परीक्षण में GPT-5 अधिक लाभदायक है। हालांकि, xAI संभवतः मूल्य समायोजन के माध्यम से इस अंतर को कम कर सकता है।

इसके अलावा, रिपोर्ट में GPT-5 के हल्के संस्करण के बारे में भी उल्लेख किया गया है। GPT-5Mini AGI-1 और AGI-2 पर क्रमशः 54.3% और 4.4% के स्कोर पर आता है, जबकि लागत क्रमशः 0.12 डॉलर और 0.20 डॉलर है। छोटे आकार के GPT-5Nano AGI-1 पर 16.5% (0.03 डॉलर) और AGI-2 पर 2.5% (0.03 डॉलर) तक पहुंचता है।

QQ20250808-092136.png

अर्क-एजीआई-1 पर ग्रॉक4, GPT-5 और छोटे मॉडल संस्करणों के परीक्षण परिणाम। | चित्र: अर्क पुरस्कार

ध्यान देने योग्य बात यह है कि अर्क-एजीआई-1 परीक्षण में, जनवरी 2024 में जारी o3-preview मॉडल ने अद्भुत 80% की सटीकता के साथ अन्य प्रतिस्पर्धियों को पीछे छोड़ दिया, लेकिन इसकी लागत अन्य प्रतिस्पर्धियों से बहुत अधिक है। यद्यपि ओपनएआई ने अपने GPT-5 प्रदर्शन में अर्क पुरस्कार का उल्लेख नहीं किया है, लेकिन द इनफॉर्मेशन की रिपोर्ट के अनुसार, इसके बाद के चैट संस्करण के अनुकूलन के लिए कंपनी ने o3-preview की क्षमता बहुत कम कर दी है।

ऊपर बताए गए मानक परीक्षण के अलावा, अर्क-एजीआई-3 भी चल रहा है, जिसमें मॉडल को एक खेल के जैसे अंतरक्रिया वाले वातावरण में कार्य करने के लिए बार-बार प्रयास करना होता है। यहां तक कि मनुष्य आसानी से इसे हल कर सकते हैं, लेकिन अधिकांश AI एजेंट दृश्य बौद्धिक खेलों में अभी भी चुनौती का सामना कर रहे हैं।