आर्टिफिशियल एनालिसिस नामक तीसरे पक्ष के AI परीक्षण संस्थान के आंकड़ों के अनुसार, ओपनएआई के o1 तर्क मॉडल का मूल्यांकन सात लोकप्रिय बेंचमार्क परीक्षणों पर करने में 2,767.05 अमेरिकी डॉलर का खर्च आया, जबकि इसके गैर-तर्क मॉडल GPT-4o पर केवल 108.85 अमेरिकी डॉलर का खर्च आया। इस उल्लेखनीय अंतर ने AI मूल्यांकन की स्थिरता और पारदर्शिता पर चर्चा को जन्म दिया है।
तर्क मॉडल, जो समस्या के समाधान के लिए चरणबद्ध रूप से "सोच" सकते हैं, हालांकि विशिष्ट क्षेत्रों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन उनका बेंचमार्क परीक्षण लागत पारंपरिक मॉडल की तुलना में बहुत अधिक है। आर्टिफिशियल एनालिसिस ने लगभग एक दर्जन तर्क मॉडल के मूल्यांकन पर कुल 5,200 अमेरिकी डॉलर खर्च किए, जो कि 80 से अधिक गैर-तर्क मॉडल के विश्लेषण (2,400 अमेरिकी डॉलर) का लगभग दोगुना है।
चित्र विवरण: यह चित्र AI द्वारा उत्पन्न किया गया है, चित्र अधिकार सेवा प्रदाता Midjourney है।
लागत में अंतर मुख्य रूप से तर्क मॉडल द्वारा उत्पन्न बड़ी संख्या में टोकन के कारण है। उदाहरण के लिए, o1 ने परीक्षण में 44 मिलियन से अधिक टोकन उत्पन्न किए, जो GPT-4o का लगभग आठ गुना है। जैसे-जैसे बेंचमार्क परीक्षण अधिक जटिल होते जा रहे हैं, वास्तविक दुनिया के कार्यों की मूल्यांकन क्षमता, साथ ही शीर्ष मॉडल की प्रति यूनिट टोकन लागत में वृद्धि (जैसे ओपनएआई का o1-pro प्रति मिलियन आउटपुट टोकन 600 अमेरिकी डॉलर का शुल्क लेता है), इन मॉडलों के प्रदर्शन को स्वतंत्र रूप से सत्यापित करना बेहद महंगा हो गया है।
हालांकि कुछ AI प्रयोगशालाएँ बेंचमार्क परीक्षण संस्थानों को मुफ्त या सब्सिडी वाली पहुँच प्रदान करती हैं, लेकिन विशेषज्ञों को चिंता है कि इससे मूल्यांकन की निष्पक्षता को नुकसान पहुँच सकता है। जनरल रीज़निंग के सीईओ रॉस टेलर ने सवाल उठाया: "वैज्ञानिक दृष्टिकोण से, यदि आप एक ऐसा परिणाम प्रकाशित करते हैं जिसे कोई भी समान मॉडल का उपयोग करके दोहरा नहीं सकता है, तो क्या इसे वैज्ञानिक माना जा सकता है?"