हाल ही में, Meta कंपनी ने अपने नई J1 सीरीज़ मॉडल को जारी किया, जो AI की निर्णय शक्ति में सुधार करने के लिए एक अग्रणी प्रौद्योगिकी है। इसमें सुधारित सीखने (Reinforcement Learning) और संश्लेषित डेटा (Synthetic Data) के प्रशिक्षण मेथड का संयोजन किया गया है, जिससे J1 मॉडल ने न केवल निर्णय की सटीकता में सुधार किया, बल्कि उनकी न्यायपूर्णता भी उत्कृष्ट रही। इस घोषणा को तकनीकी समाचार पोर्टल marktechpost द्वारा प्रकाशित किया गया है, जिसने उन्हें ध्यान आकर्षित किया है।

लार्ज लैंग्वेज मॉडल्स (LLMs) की प्रौद्योगिकी के साथ-साथ AI के उपयोग क्षेत्र भी बढ़ रहा है, पारंपरिक जानकारी पूछताछ से लेकर निर्णय लेने की ओर बदल रहा है। यह "LLM-as-a-Judge" कहलायी जाने वाली नई शैली में, AI मॉडल दूसरे भाषा मॉडलों के आउटपुट की जाँच कर सकता है, जो बूस्टर सीखने (Reinforcement Learning), बेंचमार्क टेस्टिंग (Benchmark Testing), और सिस्टम अलाइंसमेंट (System Alignment) के लिए महत्वपूर्ण उपकरण बन जाता है। हालांकि यह नया रास्ता भविष्य में बहुत अधिक संभावना रखता है, फिर भी इसे लागू करने के लिए कई चुनौतियां हैं, जैसे - निर्णय की एकरूपता और अंतर्निहित तर्कशक्ति की कमी।

विधि, नियम, और कोर्ट

Meta के J1 मॉडल ने इन समस्याओं को हल करने में सफलता प्राप्त की है। पारंपरिक मूल्यांकन की विधि आमतौर पर मानव से लेबल किए गए डेटा पर निर्भर करती है, लेकिन इसका संग्रह खर्च बहुत ज्यादा होता है और समय लगाता है। इसलिए, J1 टीम ने 22,000 संश्लेषित प्रेफरेंस जोड़े वाले डेटासेट का निर्माण किया है, जिसमें 17,000 जोड़े WildChat से और 5,000 गणितीय प्रश्नों के डेटा। यह कार्य मॉडल की व्यापकता में बढ़ावा दिया है। इसके अलावा, J1 ने Group Relative Policy Optimization (GRPO) एल्गोरिदम का परिचालन किया, जो प्रशिक्षण प्रक्रिया को सरल बनाता है, और स्थान-निरपेक्ष सीखने की विधि के माध्यम से, जवाबों की क्रमरचना के कारण होने वाले बाइस (Bias) को हटाता है।

परीक्षण परिणामों के अनुसार, J1 ने अपने समकक्षों से अधिक प्रदर्शन किया। PPE बेंचमार्क टेस्ट में, J1-Llama-70B की सटीकता 69.6% थी, जो DeepSeek-GRM-27B और EvalPlanner-Llama-70B से अधिक थी, और J1-Llama-8B ने भी 62.2% के स्कोर दिखाया, जो EvalPlanner-Llama-8B के 55.5% से बहुत अधिक था। J1 ने कई बेंचमार्क परीक्षणों में अच्छा प्रदर्शन किया, जो इसकी व्यापक क्षमता को साबित करता है।

इस समस्त नवाचार के माध्यम से, Meta के J1 मॉडल ने भविष्य के AI अनुप्रयोगों के लिए एक अधिक मजबूत ढांचा बनाया है, विशेषकर जटिल तर्क प्रक्रियाओं और नैतिक निर्णयों के साथ।