हाल ही में, DeepSeek ने अपने सबसे हालिया R1 प्रेरणा AI मॉडल का अपडेट जारी किया है, जो कई गणित और प्रोग्रामिंग बेंचमार्क पर छोटे से बड़े प्रदर्शन करता है। हालाँकि, DeepSeek ने अपने मॉडल के प्रशिक्षण डेटा के स्रोत के बारे में जानकारी नहीं दी, जिससे कुछ AI शोधकर्ताओं को सवालों का उदय हुआ है और उन्हें संभावित रूप से इस मॉडल का ट्रेनिंग Google के Gemini AI श्रृंखला पर कुछ हिस्से से हुआ हो सकता है का संदेह है।
मेलबर्न के डेवलपर सैम पेच ने कहा है कि उन्होंने पाया है कि DeepSeek के R1-0528 मॉडल के शब्दों और व्यक्तित्व के प्रयोग में Google Gemini2.5Pro के साथ कई समानताएं हैं। यह एक तथ्य के रूप में साबित नहीं करता है, लेकिन एक और डेवलपर - अपनामित SpeechMap परियोजना के संस्थापक - भी निर्देश के दौरान उनका कहना है कि DeepSeek मॉडल के निष्कर्ष निकालने वाले "चिंतन पथ" Gemini के व्यवहार के समान हैं। यह खोज फिर से DeepSeek क्या अपने प्रशिक्षण में प्रतिद्वंद्वियों के डेटा का उपयोग करता है के बारे में चर्चा को फिर से जगह देती है।
स्रोत नोट: इस प्रतिमा को AI ने बनाया है, इसके लिए Midjourney का सेवा प्रदाता
अभी पिछले वर्ष के दिसंबर में, DeepSeek को अपने V3 मॉडल के कारण जिसने खुद को OpenAI के ChatGPT के रूप में पहचान लेता था, उससे आलोचना प्राप्त हुई थी, जो इस व्यवहार को इंगित करता था कि यह मॉडल ChatGPT के बातचीत रिकॉर्डों से प्रशिक्षण लेता है। इस साल की शुरुआत में, OpenAI ने समाचार मीडिया को बताया कि उन्होंने DeepSeek से संबंधित "डेटा डिस्टिलेशन" तकनीक के साथ जुड़े साक्ष्य पाये हैं। "डेटा डिस्टिलेशन" एक विधि है जो बड़े मॉडल से जानकारी निकालकर नए मॉडल को प्रशिक्षित करने के लिए उपयोग की जाती है। ब्लूमबर्ग ने रिपोर्ट की है कि OpenAI के पार्टनर माइक्रोसॉफ्ट ने 2024 के अंत में पाया, कि बहुत सारी जानकारी OpenAI के विकासकर्ता खातों के माध्यम से ली गई थी, जो DeepSeek से संबंधित हो सकते हैं।
हालाँकि "डिस्टिलेशन" तकनीक AI समुदाय में अकादमिक रूप से अपने लायक है, लेकिन OpenAI के अनुसार इसका उपयोग अपने मॉडल आउटपुट का उपयोग करके प्रतिद्वंद्वी उत्पाद बनाने के लिए निषेध है। ध्यान दें कि क्योंकि खुले वेब पर बहुत सारी निम्न गुणवत्ता की सामग्री होती है, इसलिए बहुत सारे AI मॉडल प्रशिक्षण के दौरान एक दूसरे के शब्दों और शब्दावली को गलत ढंग से प्रतिलिपि करने का खतरा बढ़ जाता है। इससे अधिक गहरा डेटा स्रोतों का विश्लेषण करना और उन्हें पहचानना और भी मुश्किल बन जाता है।
AI विशेषज्ञ नेथन लाम्बर्ट ने कहा कि DeepSeek का Google Gemini के डेटा का उपयोग करके प्रशिक्षण करना संभव है। वे बताते हैं कि DeepSeek के पास पर्याप्त पैसे हैं जो बाजार के सर्वश्रेष्ठ API मॉडल से सिंथेटिक डेटा उत्पन्न करने के लिए उपयोग कर सकते हैं। AI कंपनियों ने भी डेटा को "डिस्टिलेशन" से बचाने के लिए सुरक्षा मापन बढ़ाए हैं। उदाहरण के रूप में, OpenAI ने कई संगठनों को अपने उच्च-स्तरीय मॉडलों का उपयोग करने के लिए पहचान पुष्टि करने के लिए अनिवार्य बना दिया है, और Google ने भी अपने AI Studio प्लेटफार्म की सुरक्षा मजबूत करने का प्रयास किया है, जिससे मॉडल उत्पादन पथ के पहुंच को सीमित करता है।
डीपसीक ने शायद गूगल के जेमिनी डेटा का उपयोग करके नया AI मॉडल प्रशिक्षित किया होगा

AIbase基地
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।