हाल ही में, Meta कंपनी ने अपने नई J1 सीरीज़ मॉडल को जारी किया, जो AI की निर्णय शक्ति में सुधार करने के लिए एक अग्रणी प्रौद्योगिकी है। इसमें सुधारित सीखने (Reinforcement Learning) और संश्लेषित डेटा (Synthetic Data) के प्रशिक्षण मेथड का संयोजन किया गया है, जिससे J1 मॉडल ने न केवल निर्णय की सटीकता में सुधार किया, बल्कि उनकी न्यायपूर्णता भी उत्कृष्ट रही। इस घोषणा को तकनीकी समाचार पोर्टल marktechpost द्वारा प्रकाशित किया गया है, जिसने उन्हें ध्यान आकर्षित किया है।
लार्ज लैंग्वेज मॉडल्स (LLMs) की प्रौद्योगिकी के साथ-साथ AI के उपयोग क्षेत्र भी बढ़ रहा है, पारंपरिक जानकारी पूछताछ से लेकर निर्णय लेने की ओर बदल रहा है। यह "LLM-as-a-Judge" कहलायी जाने वाली नई शैली में, AI मॉडल दूसरे भाषा मॉडलों के आउटपुट की जाँच कर सकता है, जो बूस्टर सीखने (Reinforcement Learning), बेंचमार्क टेस्टिंग (Benchmark Testing), और सिस्टम अलाइंसमेंट (System Alignment) के लिए महत्वपूर्ण उपकरण बन जाता है। हालांकि यह नया रास्ता भविष्य में बहुत अधिक संभावना रखता है, फिर भी इसे लागू करने के लिए कई चुनौतियां हैं, जैसे - निर्णय की एकरूपता और अंतर्निहित तर्कशक्ति की कमी।

Meta के J1 मॉडल ने इन समस्याओं को हल करने में सफलता प्राप्त की है। पारंपरिक मूल्यांकन की विधि आमतौर पर मानव से लेबल किए गए डेटा पर निर्भर करती है, लेकिन इसका संग्रह खर्च बहुत ज्यादा होता है और समय लगाता है। इसलिए, J1 टीम ने 22,000 संश्लेषित प्रेफरेंस जोड़े वाले डेटासेट का निर्माण किया है, जिसमें 17,000 जोड़े WildChat से और 5,000 गणितीय प्रश्नों के डेटा। यह कार्य मॉडल की व्यापकता में बढ़ावा दिया है। इसके अलावा, J1 ने Group Relative Policy Optimization (GRPO) एल्गोरिदम का परिचालन किया, जो प्रशिक्षण प्रक्रिया को सरल बनाता है, और स्थान-निरपेक्ष सीखने की विधि के माध्यम से, जवाबों की क्रमरचना के कारण होने वाले बाइस (Bias) को हटाता है।
परीक्षण परिणामों के अनुसार, J1 ने अपने समकक्षों से अधिक प्रदर्शन किया। PPE बेंचमार्क टेस्ट में, J1-Llama-70B की सटीकता 69.6% थी, जो DeepSeek-GRM-27B और EvalPlanner-Llama-70B से अधिक थी, और J1-Llama-8B ने भी 62.2% के स्कोर दिखाया, जो EvalPlanner-Llama-8B के 55.5% से बहुत अधिक था। J1 ने कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन किया, जो इसकी व्यापक क्षमता को साबित करता है।
इस समस्त नवाचार के माध्यम से, Meta के J1 मॉडल ने भविष्य के AI अनुप्रयोगों के लिए एक अधिक मजबूत ढांचा बनाया है, विशेषकर जटिल तर्क प्रक्रियाओं और नैतिक निर्णयों के साथ।
मेटा ने J1 श्रृंखला के मॉडल को लॉन्च किया, सबसे मजबूत AI न्यायाधीश ऑनलाइन

AIbase基地
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।