LLM मूल्यांकन परीक्षण ढांचा DeepEval: बड़े मॉडलों के प्रदर्शन का ऑफ़लाइन मूल्यांकन

站长之家

द्वारा प्रकाशितAI समाचार · 2 मिनट पढ़ें · Sep 27, 2023

222

DeepEval एक ऐसा ढांचा है जिसका उपयोग भाषा मॉडल अनुप्रयोगों के मूल्यांकन और इकाई परीक्षण के लिए किया जाता है। यह विभिन्न मापदंड प्रदान करता है, जो भाषा मॉडल अनुप्रयोग द्वारा उत्पन्न प्रतिक्रियाओं की प्रासंगिकता, संगति, पूर्वाग्रह और विषाक्तता जैसे पहलुओं में प्रदर्शन का परीक्षण कर सकते हैं। DeepEval की ऑफ़लाइन मूल्यांकन विधि सरल और उपयोग में आसान है, और इसे मौजूदा पाइपलाइन में तेजी से एकीकृत किया जा सकता है। यह कई अंतर्निहित मूल्यांकन मापदंड प्रदान करता है और कस्टम मूल्यांकन मापदंडों का समर्थन करता है। DeepEval के वेब UI के माध्यम से, इंजीनियर अपने मूल्यांकन परिणामों को आसानी से देख और विश्लेषण कर सकते हैं।

बड़े मॉडल भाषा मॉडल मूल्यांकन परीक्षण

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

बड़े भाषा मॉडलों को भी स्मरणशक्ति की कमी पड़ती है? Supermemory, लूपर का निर्माण कर रहा है जो AI को चिरकाल याद रखने देगा!

ChatGPT या Claude जैसे बड़े भाषा मॉडल्स के साथ लंबे समय तक बातचीत करते समय, क्या आपने अपने चर्चा के विषयों को अचानक सुधर जाने की घटना देखी? यह ऐसा शायद AI के साधनों पर अलग-अलग करारपूर्वक हो रहा हो, लेकिन यह बड़े भाषा मॉडल्स की प्रस्तावित संदर्भ खंड की सीमा पर निर्भर करता है। क्या यह 8k, 32k या 128k tokens का क्षमता हो, एक बार इस सीमा को पार कर दिया जाए, तो पहले वाले बातचीत या सामग्री को काट कर हटा दिए जाएगा, जिससे प्रयोजनशीलता और अनुभव बहुत बिगड़ जाता है। हाल ही में, एक प्रतिष्ठित कंपनी Supermemory ने एक बदलावपूर्ण प्रौद्योगिकी को जारी किया है - Infin

May 16, 2025

पहले के आपेल सॉफ्टवेयर इंजीनियर कंपनी ElastixAI ने 16 मिलियन डॉलर का वित्तीय इकट्ठा किया, बड़े पाठ भाषा मॉडल्स के अनुमान तकनीक को सुधारने पर ध्यान केंद्रित किया

May 15, 2025

किमी ने लिटल रेड बुक पर शामिल होने का इंतज़ार किया AI बड़े मॉडल से ट्रफ़िक युद्ध बदलकर मूल्यवान सामग्री पर गहराई से जन्म लिया

May 12, 2025

UGMathBench डायनामिक बेंचमार्क डेटा सेट का जारी होना: भाषा मॉडल के गणितीय तर्कशक्ति का मूल्यांकन

हाल ही में, ModelScope समुदाय ने UGMathBench नामक एक डायनामिक बेंचमार्क डेटा सेट का जारी करने की घोषणा की। इसका उद्देश्य भाषा मॉडल की गणितीय तर्कशक्ति का पूरे अंतरिक्ष में मूल्यांकन करना है। इस डेटा सेट के प्रकट होने से, वर्तमान में उपलब्ध प्राथमिकता के उस क्षेत्र में भाषा मॉडलों की तर्कशक्ति का मूल्यांकन करने का ख़ला भरा गया है और शोधकर्ताओं के लिए अधिक प्रासंगिक और चुनौतीपूर्ण परीक्षण प्लेटफ़ॉर्म प्रदान की गई है।

May 10, 2025

AI दैनिक समाचार: बटन स्पेस की परीक्षा सार्वजनिक हो गई; टेंसेंट ने वीडियो उत्पादन टूल "हुन्ह्यून कस्टम" को ओपन सोर्स किया; अलिबाबा ने महान भाषा मॉडल सर्च इंजन "ZeroSearch" को ओपन सोर्स किया

【AI दैनिक समाचार】 में आपका स्वागत है! यहाँ आपको हर दिन मानवीय प्रगति के इस विशिष्ट क्षेत्र में खोजने के लिए एक नेविगेशन के रूप में हमारी सेवा उपलब्ध है। हम यहाँ AI क्षेत्र में हर दिन घटित हो रही गर्मियों के विषयों को जारी करते हैं। डेवलपर के पहलु से, आपको साक्षरता और नवाचारपूर्ण AI उत्पादों के अनुप्रयोगों के बारे में सूचना प्रदान की जाएगी। नए AI उत्पादों के बारे में अधिक जानने के लिए: https://top.aibase.

May 9, 2025

530

बाइटडांस ने क्वाडमिक्स लॉन्च किया: बड़े भाषा मॉडल के पूर्व प्रशिक्षण डेटा की गुणवत्ता और विविधता के लिए एक एकीकृत ढाँचा

Apr 28, 2025

ChatDLM: वैश्विक स्तर पर पहला प्रसार भाषा मॉडल जल्द ही ओपन सोर्स होगा, जिससे AI तकनीक में नई सफलता मिलेगी

Apr 28, 2025

जायंट नेटवर्क का स्पेस किल अब टेनसेंट के हुन्युन बड़े मॉडल से जुड़ गया है, जिससे 700 लाख से अधिक AI खिलाड़ी बन गए हैं

जायंट नेटवर्क के सोशल डिडक्शन गेम स्पेस किल ने आधिकारिक तौर पर टेनसेंट के हुन्युन बड़े मॉडल को जोड़ने की घोषणा की है। यह अभिनव कदम गेम उद्योग में AI-मूल खेल के तरीके की खोज में एक महत्वपूर्ण कदम है। वर्तमान में, स्पेस किल ने इस मॉडल का उपयोग करके 700 लाख से अधिक AI खिलाड़ियों का निर्माण किया है। ये आभासी खिलाड़ी गेम में मौजूद 20 करोड़ वास्तविक उपयोगकर्ताओं के साथ तीव्र बुद्धि युद्ध में शामिल होंगे, जिससे खिलाड़ियों को एक नया गेम अनुभव मिलेगा।

Apr 28, 2025

ज़ीस्प और शेंग्शु टेक्नोलॉजी ने रणनीतिक सहयोग किया, बड़े मॉडल के संयुक्त नवाचार पर ध्यान केंद्रित किया

27 अप्रैल को, त्सिंगुआ विश्वविद्यालय के दो प्रमुख आर्टिफिशियल इंटेलिजेंस कंपनियों ज़ीस्प (Z.ai) और शेंग्शु टेक्नोलॉजी (shengshu.com) ने एक महत्वपूर्ण रणनीतिक सहयोग की घोषणा की। इस सहयोग का उद्देश्य बड़े भाषा मॉडल और मल्टी-मॉडल जनरेटिव मॉडल में दोनों पक्षों के तकनीकी संचय और लाभों के माध्यम से, घरेलू बड़े मॉडल के तकनीकी नवाचार और उद्योग में भूमिका को बढ़ावा देना है।

Apr 27, 2025

ईमा ने एक नया भाषा मॉडल ईमाफ्यूजन लॉन्च किया: लागत और सटीकता के मामले में ओ३, जेमिनी को पछाड़ा

एआई उद्योग में बढ़ती प्रतिस्पर्धा के बीच, ईमा कंपनी ने एक नए भाषा मॉडल ईमाफ्यूजन को लॉन्च किया है, जिसके बारे में दावा किया गया है कि यह ओ३, जेमिनी और सॉनेट जैसे कई जाने-माने एआई मॉडल को लागत और सटीकता दोनों में मात देता है। पारंपरिक एकल-रणनीति प्रणालियों के विपरीत, ईमाफ्यूजन एक "कैस्केडिंग" निर्णय प्रणाली का उपयोग करता है जो लागत और सटीकता के बीच गतिशील संतुलन बनाए रखता है, साथ ही उपयोगकर्ता विशिष्ट कार्यों की आवश्यकताओं के अनुसार इसे ठीक कर सकते हैं। ईमा के मुख्य कार्यकारी अधिकारी सुर...

Apr 27, 2025

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

LLM मूल्यांकन परीक्षण ढांचा DeepEval: बड़े मॉडलों के प्रदर्शन का ऑफ़लाइन मूल्यांकन

站长之家

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

बड़े भाषा मॉडलों को भी स्मरणशक्ति की कमी पड़ती है? Supermemory, लूपर का निर्माण कर रहा है जो AI को चिरकाल याद रखने देगा!

UGMathBench डायनामिक बेंचमार्क डेटा सेट का जारी होना: भाषा मॉडल के गणितीय तर्कशक्ति का मूल्यांकन

ChatDLM: वैश्विक स्तर पर पहला प्रसार भाषा मॉडल जल्द ही ओपन सोर्स होगा, जिससे AI तकनीक में नई सफलता मिलेगी

जायंट नेटवर्क का स्पेस किल अब टेनसेंट के हुन्युन बड़े मॉडल से जुड़ गया है, जिससे 700 लाख से अधिक AI खिलाड़ी बन गए हैं

ज़ीस्प और शेंग्शु टेक्नोलॉजी ने रणनीतिक सहयोग किया, बड़े मॉडल के संयुक्त नवाचार पर ध्यान केंद्रित किया

ईमा ने एक नया भाषा मॉडल ईमाफ्यूजन लॉन्च किया: लागत और सटीकता के मामले में ओ३, जेमिनी को पछाड़ा