AI मूल्यांकन क्षेत्र: Chatbot Arena कैसे तकनीकी कंपनियों के "जीवित रहने के नियमों" को बदल रहा है

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Dec 9, 2024

116

कृत्रिम बुद्धिमत्ता के तेजी से विकसित होते क्षेत्र में, कुछ छात्रों द्वारा स्थापित एक मंच चुपचाप खेल के नियमों को बदल रहा है। Chatbot Arena न केवल दुनिया के सबसे प्रमुख AI सिस्टम परीक्षण प्लेटफार्मों में से एक बन गया है, बल्कि यह तकनीकी दिग्गजों के बीच मुकाबले का एक महत्वपूर्ण मैदान भी बन गया है।

यह परियोजना, जिसे कैलिफोर्निया विश्वविद्यालय बर्कले, स्टैनफोर्ड विश्वविद्यालय और कैलिफोर्निया विश्वविद्यालय सैन डिएगो के छात्रों ने 2023 में अप्रैल में संयुक्त रूप से लॉन्च किया, ने पारंपरिक AI तकनीकी परीक्षण को एक अनूठे तरीके से बाधित किया है। पिछले नीरस गणित और कानूनी परीक्षणों के विपरीत, Chatbot Arena ने एक अत्यंत सरल और अंतर्दृष्टिपूर्ण विधि अपनाई है: उपयोगकर्ताओं को दो AI मॉडल की प्रतिक्रियाओं की गुमनाम तुलना करने देना और बेहतर उत्तर के लिए मतदान करने देना।

कृत्रिम बुद्धिमत्ता AI शिक्षा

चित्र स्रोत टिप्पणी: चित्र AI द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney

शुरुआत में 9 मॉडल से बढ़कर अब 170 से अधिक हो गए हैं, और 200 लाख से अधिक मतपत्रों के साथ, इस परियोजना ने OpenAI, Google, Meta जैसे तकनीकी दिग्गजों का ध्यान तेजी से आकर्षित किया है। परियोजना के प्रमुख Anastasios Angelopoulos ने यहां तक कि मजाक में कहा कि उनकी प्रेमिका हर दिन Chatbot Arena के विषय पर बात सुनकर थक गई है।

इन तकनीकी कंपनियों के लिए, Chatbot Arena एक वास्तविक समय का "रैंकिंग" और "परीक्षण पत्थर" की तरह है। Meta AI उत्पाद प्रबंधन के निदेशक Joseph Spisak ने स्वीकार किया कि हर कंपनी शीर्ष पर पहुंचने के लिए प्रयासरत है, क्योंकि AI इस निर्णायक तकनीकी क्षेत्र में, कोई भी मामूली बढ़त बड़ी बाजार और प्रतिभा आकर्षण ला सकती है।

हाल ही में, Google का Gemini मॉडल प्लेटफार्म पर "आप मुझे पकड़ें, मैं आपको पकड़ूं" का एक शानदार प्रदर्शन कर रहा है। दूसरे स्थान से पहले स्थान पर पहुंचकर, शैली नियंत्रण, कोडिंग क्षमताओं आदि के कई आयामों में पूरी तरह से突破 कर चुका है, और OpenAI के साथ मुकाबले में भी पीछे नहीं रहा। यह वास्तविक समय और पारदर्शी मुकाबला तरीका AI की प्रगति को जीवंत और रोचक बनाता है।

दिलचस्प बात यह है कि, हालांकि कुछ शोधकर्ताओं ने Chatbot Arena की परीक्षण विधि को "सुभाविक अनुभव पर आधारित मूल्यांकन" कहा है, लेकिन यह उपयोगकर्ता अनुभव के करीब होने के कारण, AI मॉडल के वास्तविक प्रदर्शन को अधिकतम रूप से पुन: प्रस्तुत करता है। प्लेटफार्म के प्रमुख हमेशा खुले दृष्टिकोण बनाए रखते हैं, उपयोगकर्ताओं को विभिन्न सुभाविक कारकों को छानने की अनुमति देते हैं, और अधिक वस्तुनिष्ठ मूल्यांकन की खोज करते हैं।

वर्तमान में, यह गैर-लाभकारी परियोजना "AI क्षेत्र की विकिपीडिया" बनाने के लिए काम कर रही है। वे हर महीने परीक्षण प्रश्नों को अपडेट करते हैं, नियमित रूप से 20% उपयोगकर्ता फीडबैक डेटा को सार्वजनिक करते हैं, AI तकनीक की पारदर्शिता और प्रगति में योगदान देते हैं।

आज के तेजी से विकसित होते तकनीकी युग में, Chatbot Arena ने एक लगभग साइबरपंक तरीके से तकनीकी प्रतिस्पर्धा की सीमाओं को फिर से परिभाषित किया है। यह केवल एक रैंकिंग प्लेटफार्म नहीं है, बल्कि एक दर्पण है, जो कृत्रिम बुद्धिमत्ता के विकास की सबसे आगे की झलक दिखाता है।

कृत्रिम बुद्धिमत्ता Chatbot Arena AI मूल्यांकन Midjourney

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

मुफ्त में छवि से AI चूमा वीडियो कैसे बनाएं

2025 में, डिजिटल दुनिया ने एक नई तरह से चूमा करने का तरीका खोजा - जो मनुष्यों के बजाय एल्गोरिथ्म्स द्वारा बनाया गया था। इस AI चूमा वीडियो ट्रेंड ने TikTok, Instagram और X में एक मामला तेजी से फैल गया।

Aug 14, 2025

रेनो इनोवेशन एंटीमैग्नेट समूह के साथ AR चश्मा देखकर भुगतान करें

AIbase रिपोर्ट: हाल ही में रेनो इनोवेशन एंटीमैग्नेट समूह के साथ एक भागीदारी के साथ, AI और AR चश्मा प्रौद्योगिकी के संयोजन के लिए अपनाया गया था, जो उभरते हुए डिजिटल भुगतान समाधान बनाने के लिए काम कर रहे हैं। इस साझेदारी का मुख्य परिणाम रेनो X3Pro AR चश्मा अलीपे के 'देखकर भुगतान' सेवा के लिए आधिकारिक रूप से लॉन्च किया गया था। इस नई सुविधा के द्वारा उपयोगकर्ता अपना मोबाइल फोन निकाले बिना, बस रेनो X3Pro चश्मा पहनकर, व्यापारी रिकॉर्ड कोड या रिकॉर्ड उपकरण को देखकर भुगतान कर सकते हैं, जो दृष्टि ही आदेश है, देखा गया है, भुगतान किया गया है। भुगतान प्रक्रिया सुरक्षित और आसान है, उपयोगकर्ता केवल

Aug 14, 2025

एआई डेली: टेंग्सिन हन्युआन ओपन सोर्स हन्युआन-गेमक्राफ्ट; सबसे मजबूत छवि संपादक nano-banana के जारी किए गए; बाइटडेंस ओपन सोर्स एजेंट के लिए विशेष मॉडल M3-एजेंट-नियंत्रण छोड़ दिया

Aug 14, 2025

तेंग्यून ओपन सोर्स हन्युआन-गेमक्राफ्ट! एक छवि के बजाय सेकंड में खेल के रूप में RTX 4090 आसानी से चलाएं

तेंग्यून हाल ही में अपने नव विकसित हन्युआन-गेमक्राफ्ट फ्रेमवर्क के ओपन सोर्स का घोषणा की। एक नवाचार उपकरण, जो एक ही चित्र और उपयोगकर्ता संकेतों से पारस्परिक खेल वीडियो उत्पन्न कर सकता है, खेल विकास क्षेत्र में एक विप्लव प्रदान करता है। हन्युआन-गेमक्राफ्ट तेंग्यून के स्वयं विकसित हन्युआनवीडियो प्रौद्योगिकी पर निर्मित है, जिसका सबसे बड़ा आकर्षण एक गतिशील छवि के रूप में भौतिक वास्तविकता के साथ अंतरक्रियात्मक खेल अनुभव में बदल देता है। विकासकर्ता केवल एक स्थिति छवि प्रदान करते हैं, जिसके बाद प्रणाली उपयोगकर्ता के अनुरोध के लिए समर्थन करता है

Aug 14, 2025

अलीबाबा के 1688 ने ईमानदार सदस्यता AI संस्करण पेश किया, जो अक्टूबर में पूरी तरह से लॉन्च होगा

AIbase रिपोर्ट, अलीबाबा के अंतर्निहित एग्रीगेटर वाउचर प्लेटफॉर्म 1688 20 अगस्त को उत्पाद प्रेस कॉन्फ्रेंस के आयोजन के लिए तैयार है। यह नई व्यापारी सदस्यता उत्पाद - 'ईमानदार सदस्यता AI संस्करण' को आधिकारिक रूप से पेश किया जाएगा। इस उत्पाद की लॉन्चिंग 2025 के अक्टूबर में होगी। उस समय नए आवेदक लोगों को AI संस्करण के साथ पंजीकरण कराना होगा, जबकि वर्तमान ईमानदार सदस्यता बुनियादी संस्करण को सीमा अवधि के बाद हटा दिया जाएगा। बुनियादी संस्करण हटाए जाने से पहले, वर्तमान सदस्यों को AI संस्करण के सभी कार्यक्षमताओं के साथ स्वचालित रूप से प्राप्त होगा और वर्तमान सेवाएं सदस्यता की अवधि तक उपयोग कर सकेंगे; अवधि के बाद आवश्यकता होने पर

Aug 14, 2025

मिटैक ओपन सोर्स एजेंट मॉडल M3-Agent-Control Qwen 3 32B पर शिक्षित

हाल के दिनों में, मिटैक ने कृत्रिम बुद्धिमत्ता के क्षेत्र में फिर से अपन ऊर्जा लगाई और नई AI मॉडल - M3-Agent-Control का अनावरण किया। इस मॉडल का उद्देश्य बुद्धिमान प्रौद्योगिकी के खुले एवं व्यापक प्रसार को आगे बढ़ाना है जो विभिन्न क्षेत्रों के विकास के लिए मजबूत तकनीकी समर्थन प्रदान करता है। M3-Agent-Control के आगमन ने मिटैक के AI क्षेत्र में नवाचार की क्षमता को प्रदर्शित किया, और डेवलपर्स और व्यवसायों के लिए अधिक संभावनाएं प्रदान की। M3-Agent-Control Qwen332B पर शिक्षित है, यह एक

Aug 14, 2025

FLUX Kontext के पार! नए छवि संपादन मॉडल Nano-Banana की भूमिका अनुकरण क्षमता बहुत मजबूत है

हाल ही में, एक नए छवि संपादन AI मॉडल, Nano-Banana के सोशल मीडिया प्लेटफॉर्म पर चर्चा हुई। कई उपयोगकर्ताओं के प्रतिक्रिया के अनुसार, इस मॉडल के लॉग आर्काइव प्लेटफॉर्म पर आए नए मॉडल के छवि संसाधन क्षमता में अच्छा प्रदर्शन किया गया है, जिसे वर्तमान में अच्छी तरह से स्वीकृत FLUX Kontext मॉडल के कई महत्वपूर्ण अंकों पर अतिक्रमण के रूप में माना जाता है। Nano-Banana मॉडल के छवि संपादन क्षेत्र में प्रदर्शन मुख्य रूप से तीन मुख्य पहलुओं में दिखाई दिया। पहला, भूमिका अनुकरण क्षमता, जिसमें मॉडल छवि में मानव भूमिका के विस्तार को सटीक रूप से बरकरार रख सकता है

Aug 14, 2025

एक चित्र खेल के साथ बन जाएगा! टीसी एमएल हुनयुआन-गेमक्राफ्ट मुक्त रूप से

टीसी एमएल हुनयुआन समूह ने एक नवाचार उपकरण हुनयुआन-गेमक्राफ्ट पेश किया है, जो हुनयुआनवीडियो बेस मॉडल पर आधारित है, यह एक उच्च गति अंतरक्रिया वाला खेल वीडियो जनरेशन फ्रेमवर्क है। हुनयुआन-गेमक्राफ्ट के जारी होने से खेल वीडियो जनरेशन के क्षेत्र में एक महत्वपूर्ण उत्तरदायित्व होता है, जो उपयोगकर्ताओं को आसान इनपुट के माध्यम से उच्च गुणवत्ता वाले डायनामिक खेल वीडियो बनाने की अनुमति देता है - एक चित्र, शब्द वर्णन और क्रिया निर्देश। हुनयुआन-गेमक्राफ्ट वीडियो के तत्काल उत्पादन में सुचारू खेल छवि का उत्पादन कर सकता है

Aug 14, 2025

कुनलुन वेनवेई ने स्काईवर्क डीप रिसर्च एजेंट v2 जारी किया

स्काईवर्क एआई तकनीक लॉन्च सप्ताह के चौथे दिन, कुनलुन वेनवेई समूह ने एक महत्वपूर्ण सुधार की घोषणा की: स्काईवर्क डीप रिसर्च एजेंट v2। यह सुधार टियांगोंग सुपर एजेंट (स्काईवर्क सुपर एजेंट्स) के मुख्य इंजन को काफी हद तक मजबूत करता है, जो उपयोगकर्ताओं को अधिक मोड मिलते हैं, उच्च गुणवत्ता और अधिक कार्यकुशल अनुभव प्रदान करता है। स्काईवर्क डीप रिसर्च एजेंट 5 मई को लॉन्च होने के बाद, अब तक

Aug 14, 2025

एंथ्रोपिक ने ह्यूमनलूप के मुख्य टीम का अधिग्रहण किया एआई सुरक्षा और व्यवसाय क्षमता में सुधार के लिए

Aug 14, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

AI मूल्यांकन क्षेत्र: Chatbot Arena कैसे तकनीकी कंपनियों के "जीवित रहने के नियमों" को बदल रहा है

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

मुफ्त में छवि से AI चूमा वीडियो कैसे बनाएं

रेनो इनोवेशन एंटीमैग्नेट समूह के साथ AR चश्मा देखकर भुगतान करें

तेंग्यून ओपन सोर्स हन्युआन-गेमक्राफ्ट! एक छवि के बजाय सेकंड में खेल के रूप में RTX 4090 आसानी से चलाएं

अलीबाबा के 1688 ने ईमानदार सदस्यता AI संस्करण पेश किया, जो अक्टूबर में पूरी तरह से लॉन्च होगा

मिटैक ओपन सोर्स एजेंट मॉडल M3-Agent-Control Qwen 3 32B पर शिक्षित

FLUX Kontext के पार! नए छवि संपादन मॉडल Nano-Banana की भूमिका अनुकरण क्षमता बहुत मजबूत है

एक चित्र खेल के साथ बन जाएगा! टीसी एमएल हुनयुआन-गेमक्राफ्ट मुक्त रूप से

कुनलुन वेनवेई ने स्काईवर्क डीप रिसर्च एजेंट v2 जारी किया

एंथ्रोपिक ने ह्यूमनलूप के मुख्य टीम का अधिग्रहण किया एआई सुरक्षा और व्यवसाय क्षमता में सुधार के लिए