बीजिंग ज़ीवेन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट (BAAI) ने हाल ही में दुनिया का पहला चीनी बड़े मॉडल बहस मंच FlagEval Debate लॉन्च किया है। यह नया मंच बड़े भाषा मॉडल की क्षमता मूल्यांकन के लिए नए मापदंड प्रदान करने के लिए मॉडल बहस की इस प्रतिस्पर्धात्मक विधि का उपयोग करता है। यह ज़ीवेन मॉडल मुकाबला परीक्षण सेवा FlagEval बड़े मॉडल एरिना का विस्तार है, जिसका लक्ष्य बड़े भाषा मॉडलों के बीच क्षमता के अंतर को पहचानना है।

वर्तमान बड़े मॉडल मुकाबलों में कुछ समस्याएं हैं, जैसे कि मॉडल मुकाबला परिणाम अक्सर बराबरी पर समाप्त होता है, जिससे मॉडलों के बीच के अंतर को पहचानना मुश्किल हो जाता है; परीक्षण सामग्री उपयोगकर्ता मतदान पर निर्भर करती है, जिसके लिए बड़ी संख्या में उपयोगकर्ताओं की भागीदारी की आवश्यकता होती है; मौजूदा मुकाबला विधियों में मॉडलों के बीच इंटरएक्शन की कमी होती है। इन समस्याओं को हल करने के लिए, ज़ीवेन रिसर्च इंस्टीट्यूट ने मूल्यांकन के लिए बड़े मॉडल बहस के रूप को अपनाया।

बहस एक भाषा आधारित बुद्धि गतिविधि के रूप में, प्रतिभागियों की तार्किक सोच, भाषा संगठन, जानकारी विश्लेषण और प्रसंस्करण क्षमता को दर्शा सकती है। मॉडल बहस बड़े मॉडलों के सूचना समझने, ज्ञान एकीकरण, तार्किक तर्क, भाषा उत्पादन और संवाद क्षमता जैसे पहलुओं में स्तर को प्रदर्शित कर सकती है, साथ ही जटिल संदर्भों में सूचना प्रसंस्करण की गहराई और अनुकूलन क्षमता का परीक्षण कर सकती है।

微信截图_20240930140737.png

ज़ीवेन रिसर्च इंस्टीट्यूट ने पाया कि बहस की यह इंटरएक्टिव मुकाबला विधि मॉडलों के बीच के अंतर को उजागर कर सकती है और सीमित डेटा नमूनों के आधार पर मॉडल की प्रभावी रैंकिंग की गणना कर सकती है। इसलिए, उन्होंने सामूहिक परीक्षण पर आधारित चीनी बड़े मॉडल बहस मंच FlagEval Debate पेश किया।

यह मंच दो मॉडलों को बहस के विषय पर बहस करने की अनुमति देता है, विषय को मंच द्वारा यादृच्छिक रूप से चुना जाता है, और विषय बैंक मुख्य रूप से ट्रेंडिंग विषयों, मूल्यांकन विशेषज्ञों और शीर्ष बहस विशेषज्ञों द्वारा निर्मित विषयों से बना होता है। सभी उपयोगकर्ता मंच पर प्रत्येक बहस का मूल्यांकन कर सकते हैं, जिससे उपयोगकर्ता अनुभव में सुधार होता है।

प्रत्येक मॉडल बहस में 5 राउंड की राय प्रस्तुत की जाती है, जिसमें सकारात्मक और नकारात्मक पक्ष को एक बार मौका मिलता है। सकारात्मक और नकारात्मक पक्ष की स्थिति के कारण होने वाले पूर्वाग्रह से बचने के लिए, दोनों मॉडलों को एक बार सकारात्मक और एक बार नकारात्मक पक्ष की भूमिका निभानी होती है। प्रत्येक बड़े मॉडल अन्य मॉडलों के साथ कई बहसों में भाग लेगा, और अंततः जीत के अंक के आधार पर मॉडल की रैंकिंग की जाएगी।

मॉडल बहस मुकाबला दो तरीकों से किया जाता है: ओपन क्राउड टेस्टिंग और विशेषज्ञ मूल्यांकन, जिसमें विशेषज्ञ जूरी में पेशेवर बहस प्रतियोगिता के प्रतिभागी और जज शामिल होते हैं। ओपन क्राउड टेस्टिंग में दर्शक स्वतंत्र रूप से मूल्यांकन और मतदान कर सकते हैं।

ज़ीवेन रिसर्च इंस्टीट्यूट ने कहा है कि वह मॉडल बहस की तकनीकी पथ और अनुप्रयोग मूल्य की खोज जारी रखेगा, वैज्ञानिक, प्राधिकृत, निष्पक्ष और खुली सिद्धांतों का पालन करेगा, और FlagEval बड़े मॉडल मूल्यांकन प्रणाली को लगातार सुधारता रहेगा, बड़े मॉडल मूल्यांकन पारिस्थितिकी के लिए नए दृष्टिकोण और विचार प्रदान करेगा।

FlagEval Debate की आधिकारिक वेबसाइट:

https://flageval.baai.org/#/debate