आज तड़के 1 बजे हुए तकनीकी प्रसारण में, OpenAI ने अपने नवीनतम और सबसे शक्तिशाली बहु-विधा मॉडल o4-mini और पूर्ण संस्करण o3 को आधिकारिक तौर पर लॉन्च किया। इन दोनों मॉडलों में अनोखे फायदे हैं, ये न केवल पाठ, छवियों और ऑडियो को एक साथ संसाधित कर सकते हैं, बल्कि वे बुद्धिमान एजेंट के रूप में वेब खोज, छवि निर्माण, कोड विश्लेषण जैसे टूल को स्वचालित रूप से कॉल भी कर सकते हैं, और इनमें गहन चिंतन मोड भी है, जो सोच श्रृंखला में छवियों के बारे में सोच सकते हैं।
OpenAI द्वारा जारी किए गए परीक्षण डेटा से पता चलता है कि o4-mini का प्रदर्शन बेहद शानदार है। AIME2024 और 2025 परीक्षणों में, इसकी सटीकता क्रमशः 93.4% और 92.7% रही, जो पूर्ण संस्करण o3 से भी आगे निकल गई, और यह वर्तमान में सबसे अधिक सटीक मॉडल बन गया है। Codeforces प्रोग्रामिंग प्रतियोगिता परीक्षण में, o4-mini ने 2700 अंक प्राप्त किए, जो इसे दुनिया के शीर्ष 200 सबसे मजबूत प्रोग्रामरों में शामिल करता है।
पारंपरिक बड़े मॉडलों के विपरीत, OpenAI ने पहली बार o3 और o4-mini को बाहरी टूल कॉल करने की क्षमता प्रदान की है। प्रशिक्षण के दौरान, मॉडल न केवल पाठ निर्माण सीखता है, बल्कि जटिल कार्यों का सामना करने पर उपयुक्त टूल का चयन करके तर्क कैसे करें, यह भी सीखता है। उदाहरण के लिए, जटिल गणितीय समस्याओं को हल करते समय, मॉडल जटिल गणना को पूरा करने के लिए कैलकुलेटर टूल का उपयोग कर सकता है; छवि डेटा को संसाधित करते समय, यह छवि संसाधन टूल का उपयोग करके क्रॉपिंग, घुमाव आदि जैसे संचालन कर सकता है। इस तरह की टूल उपयोग क्षमता मॉडल को अधिक जटिल कार्य परिदृश्यों का सामना करने में सक्षम बनाती है।
बहु-विधा तर्क क्षमता o3 और o4-mini का एक और मुख्य आकर्षण है। ये विभिन्न विधाओं के डेटा जैसे पाठ, छवियों, ऑडियो को एक साथ संसाधित कर सकते हैं और उन्हें व्यवस्थित रूप से एकीकृत कर सकते हैं। OpenAI ने एक अभिनव तंत्रिका नेटवर्क आर्किटेक्चर का उपयोग किया है, जो छवियों और पाठ डेटा को एक समान विशेषता प्रतिनिधित्व में क्रमशः एन्कोड करता है। छवि डेटा के लिए, कनवल्शन न्यूरल नेटवर्क का उपयोग करके विशेषताओं को निकाला जाता है; पाठ डेटा के लिए, ट्रांसफॉर्मर एन्कोडर का उपयोग करके शब्दार्थ जानकारी निकाली जाती है। फिर, इन विभिन्न विधाओं की विशेषताओं को एकीकृत करने के लिए एक फ्यूजन मॉड्यूल का उपयोग किया जाता है, एक समान विशेषता प्रतिनिधित्व उत्पन्न करता है, जो बहु-विधा डेटा के संयुक्त प्रसंस्करण को प्राप्त करता है। इसके अतिरिक्त, मॉडल में विभिन्न विधाओं के डेटा के गतिशील प्रसंस्करण की क्षमता है, जो कार्य की आवश्यकताओं के अनुसार प्रसंस्करण वज़न को गतिशील रूप से समायोजित कर सकता है।
प्रशिक्षण के मामले में, OpenAI बड़े पैमाने पर पर्यवेक्षित शिक्षा और थोड़ी मात्रा में पर्यवेक्षित शिक्षा के संयोजन का उपयोग करता है। पर्यवेक्षित शिक्षा भाग में, मॉडल बड़ी मात्रा में पाठ और छवि डेटा के माध्यम से पूर्व-प्रशिक्षित होता है, भाषा और छवि की बुनियादी विशेषताओं और पैटर्न को सीखता है; पर्यवेक्षित शिक्षा भाग में, मॉडल को लेबल वाले डेटा और टूल उपयोग डेटा के माध्यम से ठीक-ठीक किया जाता है, जिससे यह टूल को बेहतर ढंग से समझ और उपयोग कर सकता है।
बेंचमार्क परीक्षणों में, o3 और o4-mini ने उत्कृष्ट प्रदर्शन किया है। AIME2024 परीक्षण में, o3 की सटीकता 91.6% और o4-mini की 93.4% थी; AIME2025 परीक्षण में, o3 की सटीकता 88.9% और o4-mini की 92.7% थी। प्रोग्रामिंग प्रतियोगिता (Codeforces) परीक्षण में, o4-mini ने 2719 अंक प्राप्त किए, जो इसे दुनिया के शीर्ष 200 प्रतिभागियों में स्थान दिलाता है, जबकि o3 ने 2706 अंक प्राप्त किए। डॉक्टरेट स्तर के प्रश्नोत्तर GPQA परीक्षण में, o3 मॉडल की सटीकता 83% और o4-mini की 81.4% थी। बहु-विधा कार्यों के संबंध में, o3 और o4-mini ने MMU गणित, विस्टा, चारिवे और वीस्टार जैसे बहु-विधा बेंचमार्क परीक्षणों में भी उत्कृष्ट प्रदर्शन किया है।
नियमित परीक्षणों के अलावा, OpenAI ने कुछ वास्तविक उपयोग परीक्षण परिणाम भी साझा किए हैं। वैज्ञानिक अनुसंधान के क्षेत्र में, मॉडल शोधकर्ताओं को प्रयोगात्मक डेटा का तेजी से विश्लेषण करने, साहित्य की समीक्षा करने और नए शोध विचारों को प्रस्तुत करने में मदद कर सकता है; सॉफ्टवेयर विकास के क्षेत्र में, यह डेवलपर्स को कोड में त्रुटियों का त्वरित पता लगाने और उन्हें ठीक करने में मदद कर सकता है। ये वास्तविक अनुप्रयोग परीक्षण परिणाम जटिल वैज्ञानिक समस्याओं और वास्तविक विकास कार्यों को संभालने में o3 और o4-mini की दक्षता और विशाल क्षमता को और अधिक प्रमाणित करते हैं।
आज से, ChatGPT Plus, Pro और Team उपयोगकर्ता मॉडल चयनकर्ता में o3, o4-mini और o4-mini-high देखेंगे। ChatGPT Enterprise और Edu उपयोगकर्ताओं को एक सप्ताह बाद एक्सेस मिल जाएगा, सभी योजनाओं की दर सीमा पिछले मॉडलों की तरह ही रहेगी। पूर्ण संस्करण o3 और o4-mini भी ChatGPT Completions API और Responses API के माध्यम से डेवलपर्स के लिए उपलब्ध हैं। Responses API अनुमान सारांश फ़ंक्शन का समर्थन करता है, जो प्रदर्शन को बेहतर बनाने के लिए फ़ंक्शन कॉल के दौरान अनुमान टोकन को बनाए रख सकता है, और जल्द ही इसमें अंतर्निहित टूल शामिल होंगे, जिसमें वेब खोज, फ़ाइल खोज और कोड इंटरप्रेटर शामिल हैं, ताकि मॉडल की अनुमान क्षमता को बढ़ाया जा सके।