गूगल एआई हाल ही में एक परीक्षण उपकरण Stax जारी किया गया है, जो विकासकर्ताओं को बड़े भाषा मॉडल (LLMs) के परीक्षण और विश्लेषण के लिए अधिक कुशल ढंग से सहायता करने के लिए डिज़ाइन किया गया है। पारंपरिक सॉफ्टवेयर परीक्षण के विपरीत, LLMs संभाव्य प्रणालियाँ हैं, जो समान प्रेरणा के लिए अलग-अलग प्रतिक्रियाएँ दे सकती हैं, जिससे मूल्यांकन की एकरूपता और पुनरावृत्ति कठिन हो जाती है। इसलिए, Stax विकासकर्ताओं के लिए एक संरचित तरीका प्रदान करता है, जो अपने आदर्श मानकों के आधार पर अलग-अलग LLMs का मूल्यांकन और तुलना कर सकता है।

image.png

मॉडल मूल्यांकन के दौरान, आमतौर पर रैंकिंग और सामान्य बेंचमार्क टेस्ट का उपयोग किया जाता है, जो मॉडल के उन्नयन के ऊपरी स्तर की निगरानी के लिए उपयोगी होते हैं, लेकिन विशिष्ट क्षेत्र की आवश्यकताओं को प्रतिबिंबित नहीं करते हैं। उदाहरण के लिए, खुले क्षेत्र तार्किक कार्य में अच्छा प्रदर्शन करने वाला मॉडल, संपादन सारांश, कानूनी पाठ विश्लेषण या विशिष्ट कंपनी के सवालों के उत्तर देने जैसे विशिष्ट उपयोग मामलों में सक्षम नहीं हो सकता है। Stax विकासकर्ताओं को अपने उपयोग मामलों के संबंध में मूल्यांकन प्रक्रिया परिभाषित करने की अनुमति देकर इस समस्या का समाधान करता है।

Stax का एक महत्वपूर्ण फीचर "फास्ट कॉम्परेज़न" है। यह फीचर विकासकर्ताओं को विभिन्न मॉडल के विभिन्न प्रेरणा के साथ समान समय पर परीक्षण करने की अनुमति देता है, जिससे प्रेरणा डिज़ाइन या मॉडल चयन के आउटपुट पर प्रभाव को समझना आसान हो जाता है और प्रयोग और त्रुटि के लिए आवश्यक समय कम हो जाता है। साथ ही, Stax के "प्रोजेक्ट और डेटासेट" फीचर हैं, जब आपको बड़े पैमाने पर परीक्षण करना होता है, तो विकासकर्ता संरचित परीक्षण सेट बना सकते हैं और एक ही मानक के साथ कई नमूनों में लागू कर सकते हैं, जिससे पुनरावृत्ति का समर्थन होता है और अधिक वास्तविक परिस्थितियों में मॉडल के मूल्यांकन को आसान बनाया जाता है।

Stax के मुख्य अवधारणा "ऑटोमैटिक एज़ी" है। विकासकर्ता अपने उपयोग मामलों के लिए अनुकूलित एज़ी बना सकते हैं, या अग्रिम रूप से निर्मित एज़ी का उपयोग कर सकते हैं। निर्मित विकल्प सामान्य मूल्यांकन श्रेणियों को कवर करते हैं, जैसे कि सुचारूता (व्याकरण सहीता और पठनीयता), मूलभूतता (संदर्भ सामग्री के साथ तथ्य की एकरूपता) और सुरक्षा (आउटपुट में हानिकारक या अनुचित सामग्री के बचाव के लिए)। इस लचीलापन के कारण मूल्यांकन वास्तविक आवश्यकताओं के साथ जुड़ सकता है, बजाय एकल सामान्य मापदंड के।

इसके अलावा, Stax के विश्लेषण डैशबोर्ड परिणामों की व्याख्या करने में विकासकर्ताओं की सुविधा करते हैं, जिससे वे प्रदर्शन के प्रवृत्ति देख सकते हैं, विभिन्न मूल्यांकनकर्ता के आउटपुट की तुलना कर सकते हैं और एक ही डेटासेट पर विभिन्न मॉडल के प्रदर्शन का विश्लेषण कर सकते हैं। समग्र रूप से, Stax विकासकर्ताओं के लिए एक ऐसा उपकरण प्रदान करता है जो अस्थायी परीक्षण से संरचित मूल्यांकन में बदलाव करता है, जो टीम को उत्पादन परिवेश में मॉडल के विशिष्ट परिस्थितियों में प्रदर्शन के बारे में बेहतर समझ और आउटपुट के वास्तविक अनुप्रयोग के अनुरूप होने की निगरानी करने में सक्षम बनाता है।

परियोजना: https://stax.withgoogle.com/landing/index.html

मुख्य बिंदु:

🌟 Stax गूगल एआई द्वारा एक प्रयोगात्मक उपकरण है, जो विकासकर्ताओं को अपने आदर्श मानकों के आधार पर बड़े भाषा मॉडल के मूल्यांकन के लिए सहायता करने के लिए डिज़ाइन किया गया है।  

🔍 "फास्ट कॉम्परेज़न" और "प्रोजेक्ट और डेटासेट" फीचर के माध्यम से विकासकर्ता अधिक कुशल ढंग से मॉडल परीक्षण और मूल्यांकन कर सकते हैं।  

📊 Stax अनुकूलित और अग्रिम रूप से निर्मित मूल्यांकनकर्ता का समर्थन करता है, जो विकासकर्ताओं को वास्तविक आवश्यकताओं के साथ जुड़े मूल्यांकन परिणाम प्राप्त करने में सक्षम बनाता है।