जिज्ञासा अनुसंधान संस्थान ने वैश्विक पहले चीनी बड़े मॉडल बहस मंच FlagEval Debate लॉन्च किया

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Sep 30, 2024

235

बीजिंग ज़ीवेन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट (BAAI) ने हाल ही में दुनिया का पहला चीनी बड़े मॉडल बहस मंच FlagEval Debate लॉन्च किया है। यह नया मंच बड़े भाषा मॉडल की क्षमता मूल्यांकन के लिए नए मापदंड प्रदान करने के लिए मॉडल बहस की इस प्रतिस्पर्धात्मक विधि का उपयोग करता है। यह ज़ीवेन मॉडल मुकाबला परीक्षण सेवा FlagEval बड़े मॉडल एरिना का विस्तार है, जिसका लक्ष्य बड़े भाषा मॉडलों के बीच क्षमता के अंतर को पहचानना है।

वर्तमान बड़े मॉडल मुकाबलों में कुछ समस्याएं हैं, जैसे कि मॉडल मुकाबला परिणाम अक्सर बराबरी पर समाप्त होता है, जिससे मॉडलों के बीच के अंतर को पहचानना मुश्किल हो जाता है; परीक्षण सामग्री उपयोगकर्ता मतदान पर निर्भर करती है, जिसके लिए बड़ी संख्या में उपयोगकर्ताओं की भागीदारी की आवश्यकता होती है; मौजूदा मुकाबला विधियों में मॉडलों के बीच इंटरएक्शन की कमी होती है। इन समस्याओं को हल करने के लिए, ज़ीवेन रिसर्च इंस्टीट्यूट ने मूल्यांकन के लिए बड़े मॉडल बहस के रूप को अपनाया।

बहस एक भाषा आधारित बुद्धि गतिविधि के रूप में, प्रतिभागियों की तार्किक सोच, भाषा संगठन, जानकारी विश्लेषण और प्रसंस्करण क्षमता को दर्शा सकती है। मॉडल बहस बड़े मॉडलों के सूचना समझने, ज्ञान एकीकरण, तार्किक तर्क, भाषा उत्पादन और संवाद क्षमता जैसे पहलुओं में स्तर को प्रदर्शित कर सकती है, साथ ही जटिल संदर्भों में सूचना प्रसंस्करण की गहराई और अनुकूलन क्षमता का परीक्षण कर सकती है।

微信截图_20240930140737.png

ज़ीवेन रिसर्च इंस्टीट्यूट ने पाया कि बहस की यह इंटरएक्टिव मुकाबला विधि मॉडलों के बीच के अंतर को उजागर कर सकती है और सीमित डेटा नमूनों के आधार पर मॉडल की प्रभावी रैंकिंग की गणना कर सकती है। इसलिए, उन्होंने सामूहिक परीक्षण पर आधारित चीनी बड़े मॉडल बहस मंच FlagEval Debate पेश किया।

यह मंच दो मॉडलों को बहस के विषय पर बहस करने की अनुमति देता है, विषय को मंच द्वारा यादृच्छिक रूप से चुना जाता है, और विषय बैंक मुख्य रूप से ट्रेंडिंग विषयों, मूल्यांकन विशेषज्ञों और शीर्ष बहस विशेषज्ञों द्वारा निर्मित विषयों से बना होता है। सभी उपयोगकर्ता मंच पर प्रत्येक बहस का मूल्यांकन कर सकते हैं, जिससे उपयोगकर्ता अनुभव में सुधार होता है।

प्रत्येक मॉडल बहस में 5 राउंड की राय प्रस्तुत की जाती है, जिसमें सकारात्मक और नकारात्मक पक्ष को एक बार मौका मिलता है। सकारात्मक और नकारात्मक पक्ष की स्थिति के कारण होने वाले पूर्वाग्रह से बचने के लिए, दोनों मॉडलों को एक बार सकारात्मक और एक बार नकारात्मक पक्ष की भूमिका निभानी होती है। प्रत्येक बड़े मॉडल अन्य मॉडलों के साथ कई बहसों में भाग लेगा, और अंततः जीत के अंक के आधार पर मॉडल की रैंकिंग की जाएगी।

मॉडल बहस मुकाबला दो तरीकों से किया जाता है: ओपन क्राउड टेस्टिंग और विशेषज्ञ मूल्यांकन, जिसमें विशेषज्ञ जूरी में पेशेवर बहस प्रतियोगिता के प्रतिभागी और जज शामिल होते हैं। ओपन क्राउड टेस्टिंग में दर्शक स्वतंत्र रूप से मूल्यांकन और मतदान कर सकते हैं।

ज़ीवेन रिसर्च इंस्टीट्यूट ने कहा है कि वह मॉडल बहस की तकनीकी पथ और अनुप्रयोग मूल्य की खोज जारी रखेगा, वैज्ञानिक, प्राधिकृत, निष्पक्ष और खुली सिद्धांतों का पालन करेगा, और FlagEval बड़े मॉडल मूल्यांकन प्रणाली को लगातार सुधारता रहेगा, बड़े मॉडल मूल्यांकन पारिस्थितिकी के लिए नए दृष्टिकोण और विचार प्रदान करेगा।

FlagEval Debate की आधिकारिक वेबसाइट:

https://flageval.baai.org/#/debate

चीनी बड़े मॉडल बहस मंच क्षमता मूल्यांकन जिज्ञासा अनुसंधान संस्थान

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services

AI Model Compatibility Checker

AI Deployment Calculator

जिज्ञासा अनुसंधान संस्थान ने वैश्विक पहले चीनी बड़े मॉडल बहस मंच FlagEval Debate लॉन्च किया

AIbase基地

यह लेख AIbase दैनिक से है

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

जिज्ञासा अनुसंधान संस्थान ने वैश्विक पहले चीनी बड़े मॉडल बहस मंच FlagEval Debate लॉन्च किया

AIbase基地

यह लेख AIbase दैनिक से है

GEO Services