विकिपीडिया ने हाल ही में घोषणा की है कि वह गूगल के डेटा साइंस समुदाय प्लेटफॉर्म Kaggle के साथ मिलकर, कृत्रिम बुद्धिमत्ता मॉडल प्रशिक्षण के लिए अनुकूलित एक डेटासेट जारी करेगा। इस कदम का उद्देश्य AI डेवलपर्स द्वारा विकिपीडिया डेटा को क्रॉल करने वाले प्रोग्रामों का उपयोग करने को कम करना और प्लेटफ़ॉर्म की बैंडविड्थ और सर्वर संसाधनों की रक्षा करना है।
इस डेटासेट में अंग्रेजी और फ्रांसीसी में संरचित विकिपीडिया जानकारी शामिल है, जिसमें अच्छी मशीन रीडेबिलिटी है, जिससे AI डेवलपर्स को मॉडलिंग, फाइन-ट्यूनिंग और डेटा विश्लेषण करने में आसानी होती है। विकिमीडिया फाउंडेशन ने कहा है कि यह डेटासेट ओपन लाइसेंस के तहत जारी किया गया है, जिसमें शोध सारांश, संक्षिप्त विवरण, छवि लिंक, जानकारी बॉक्स डेटा और लेख के विभिन्न भाग शामिल हैं, लेकिन इसमें संदर्भ और ऑडियो फ़ाइल जैसे गैर-पाठ तत्व शामिल नहीं हैं।
विकिमीडिया को उम्मीद है कि Kaggle उपयोगकर्ता इस डेटासेट के माध्यम से जानकारी प्राप्त करने का एक अधिक सुविधाजनक तरीका प्राप्त कर सकेंगे, जिससे मूल लेख पाठ को सीधे क्रॉल करने से उत्पन्न तकनीकी चुनौतियों से बचा जा सकेगा। जैसे-जैसे विकिपीडिया तक पहुँचने वाले स्वचालित AI प्रोग्रामों की संख्या बढ़ रही है, क्रॉलिंग से विकिपीडिया के सर्वर पर भारी बोझ पड़ रहा है।
Kaggle के पार्टनरशिप प्रमुख ब्रेंडा फ्लिन ने कहा कि Kaggle विकिमीडिया फाउंडेशन के डेटा को होस्ट करने के लिए बहुत खुश है। उन्होंने कहा कि Kaggle डेटा की पहुँच, उपलब्धता और व्यावहारिकता को बनाए रखने के लिए प्रतिबद्ध है ताकि व्यापक मशीन लर्निंग समुदाय की सेवा की जा सके।
इस सहयोग से, विकिपीडिया ने न केवल अपने संसाधनों की रक्षा की है, बल्कि छोटे व्यवसायों और स्वतंत्र डेटा वैज्ञानिकों के लिए भी अधिक सुविधाजनक पहुँच प्रदान की है, जिससे कृत्रिम बुद्धिमत्ता के विकास और अनुप्रयोग को बढ़ावा मिला है।
मुख्य बातें:
🌐 विकिपीडिया और Kaggle ने मिलकर अंग्रेजी और फ्रांसीसी में संरचित डेटासेट जारी किया है, जिसका उद्देश्य AI क्रॉलिंग को कम करना है।
🗂️ डेटासेट में शोध सारांश, संक्षिप्त विवरण और छवि लिंक आदि शामिल हैं, जो ओपन लाइसेंस के तहत है, जिससे AI डेवलपर्स को इसका उपयोग करने में आसानी होती है।
🔧 Kaggle डेटा की पहुँच को बनाए रखने का वादा करता है, छोटे व्यवसायों और स्वतंत्र डेटा वैज्ञानिकों के शोध का समर्थन करता है।