Mistral AI की घोषणा: यूरोपीय AI बेसिनफ्रामवर्क के साथ अमेरिकी क्लाउड गिगेंट्स के खिलाफ प्रतिस्पर्धा

फ्रांस की एक आर्टिफिशियल इंटेलिजेंस (AI) स्टारटअप, Mistral AI बुधवार को AI बेसिनफ्रामवर्क के क्षेत्र में पूर्ण रूप से प्रवेश करने की घोषणा की, जिससे यह यूरोप का अमेरिकी क्लाउड गिगेंट्स के खिलाफ मजबूत प्रतिक्रिया बन गया। इस समय ही, वह नए तर्क-प्रदर्शन मॉडल की घोषणा भी कर दी है, जो OpenAI के सबसे उन्नत प्रणाली के साथ प्रतिस्पर्धा कर सकती है।

पेरिस के आधारित इस कंपनी ने Mistral Compute की घोषणा की है, जो NVIDIA के साथ बनाई गई समग्र AI बेसिनफ्रामवर्क प्लेटफार्म है, जिसका उद्देश्य यूरोपीय व्यवसायों और सरकारों के लिए अमेरिकी क्लाउड प्रदाताओं, जैसे AWS, Microsoft Azure और Google Cloud, के आधार पर रहने से मुक्त होने का विकल्प प्रदान करना है। यह कदम Mistral AI के लिए महत्वपूर्ण रणनीतिक बदलाव को चिह्नित करता है, जिसने AI मॉडल विकसित करने से अब पूरी तकनीकी स्टैक को नियंत्रित करने की ओर बदल दिया है।

Mistral AI के सीई और सह-संस्थापक Arthur Mensch ने कहा, "AI बेसिनफ्रामवर्क क्षेत्र में प्रवेश ने Mistral AI को एक बदलाव के कदम का निर्माण किया है, क्योंकि यह हमें AI वैल्यू चेन के एक महत्वपूर्ण क्षेत्र में पहुंच करने की छानियाँ प्रदान करता है। यह बदलाव हमें न केवल नवाचार और AI प्रसार को सुनिश्चित करने की जिम्मेदारी देता है, बल्कि यूरोप के तकनीकी स्वायत्तता को बनाए रखने और इसके प्रगति पथ में नेतृत्व देने की भी जिम्मेदारी देता है।"

mistral

Mistral द्वारा किस प्रकार से किसी भी भाषा के साथ सोचने वाले तर्क प्रदर्शन मॉडल का निर्माण

इसके अलावा, Mistral ने अपनी Magistral सीरीज़ तर्क प्रदर्शन मॉडल की घोषणा की है — जो ये आर्टिफिशियल इंटेलिजेंस प्रणालियाँ हैं, जो एकाग्रता से तार्किक सोच कर सकती हैं, जैसे OpenAI के o1 मॉडल और चीन के DeepSeek R1। हालाँकि, Mistral के वैज्ञानिक बैगूआर लेम्पल ने यह भी कहा कि इसकी रणनीति प्रतिद्वंद्वियों की तुलना में कुछ महत्वपूर्ण अंतर है।

लेम्पल ने एक विशेष साक्षात्कार में इस बात का रिपोर्ट दी कि "हम सब कुछ शून्य से शुरू करते हैं, जिसका मुख्य कारण हमारी वर्तमान ज्ञानशक्ति, जैसे काम करने की लचीलापन, सीखना है। वास्तव में, हम बहुत उच्च कार्यक्षमता पर ऑनलाइन बढ़ावा मिलान प्रक्रिया पर काम कर रहे हैं।" प्रतिद्वंद्वियों के प्रथानुसार तर्क प्रक्रिया को छुपा रखने के बजाय, Mistral के मॉडल उपयोगकर्ताओं को पूरी तर्क प्रक्रिया को दिखाते हैं, और यह भी महत्वपूर्ण है कि यह उपयोगकर्ताओं की मातृभाषा का उपयोग करता है, न कि डिफ़ॉल्ट अंग्रेजी। लेम्पल ने स्पष्ट किया कि "हम उपयोगकर्ताओं की अपनी मातृभाषा में तर्क प्रक्रिया को दिखा रहे हैं, ताकि वे वास्तव में पढ़ सकें, और देख सकें कि यह अर्थपूर्ण है।"

इस कंपनी ने दो संस्करण जारी किए हैं: Magistral Small जो 2.4 बिलियन पैरामीटर का ओपनसोर्स मॉडल है; और Magistral Medium, जो Mistral API का प्रयोग करके उपयोग किया जा सकता है।

AI मॉडल प्रशिक्षण में प्राप्त "सुपरपावर"

ये मॉडल प्रशिक्षण के दौरान सुपरपावर के लिए प्रसिद्ध हैं। सबसे महत्वपूर्ण बात, जो प्रशिक्षण प्रक्रिया बस लेटरल पाठ से गणित और कोडिंग समस्याओं पर केंद्रित थी, फिर भी Magistral Medium को बहुमोड़ तर्क प्रदर्शन क्षमता — जो चित्रों की विश्लेषण क्षमता है — बनाए रखती है।

लेम्पल ने कहा, "हमें पता चला कि यह कुछ अप्रत्याशित नहीं है, बल्कि हम इसे सोचते भी नहीं थे। यदि आप बदलाव प्रशिक्षण प्रक्रिया के अंत में प्रारंभिक विज़ुअल कोडर को फिर से जोड़ते हैं, तो अचानक आपको यह महसूस होगा कि मॉडल चित्रों पर तर्क कर सकता है।"

ये मॉडल जटिल फ़ंक्शन कॉलिंग क्षमता प्राप्त कर लेते हैं, जो स्वचालित करने के लिए बहुपदीय इंटरनेट सर्च और कोड एक्सेक्यूशन करते हैं, और इसके बाद जटिल प्रश्नों का जवाब देते हैं। लेम्पल ने स्पष्ट किया, "मॉडल ऐसे करता है जैसे इंटरनेट सर्च करता है, फिर परिणामों का प्रोसेसिंग करता है, और यदि जरूरत हो तो फिर से सर्च करता है। यह व्यवहार विशेष प्रशिक्षण की आवश्यकता के बिना आसानी से बन जाता है, जो हमारे टीम को बहुत अश्वस्थ कर देता है।"

इंजीनियरिंग की तकनीकी तकनीक: प्रशिक्षण की गति प्रतिद्वंद्वियों से अधिक

Mistral की इंजीनियरिंग टीम ने महत्वपूर्ण इंजीनियरिंग चुनौतियों को पार करके, लेम्पल के शब्दों में, प्रशिक्षण बेसिनफ्रामवर्क के क्षेत्र में एक तकनीकी तकनीक प्रदान की है। वह कंपनी ने "ऑनलाइन बढ़ावा मिलान" प्रणाली का विकास किया है, जिससे AI मॉडल जवाब उत्पन्न करते हुए निरंतर सुधार कर सकता है, और पहले से जुड़े प्रशिक्षण डेटा पर निर्भर नहीं करता है।

महत्वपूर्ण नवाचार में हजारों ग्राफिकल प्रोसेसिंग यूनिट (GPU) के बीच मॉडल अद्यतन के एकात्मिक समय में एक्सेस करने का तरीका है। लेम्पल ने स्पष्ट किया, "हमने केवल एक तरीका खोजा है जिससे GPU के माध्यम से मॉडल के अद्यतन किए जा सकते हैं।" यह विधि मिनटों में (जो सामान्यतः घंटों लेता है) अलग-अलग GPU क्लस्टरों के बीच मॉडल वजनों को अद्यतन करने में सक्षम बनाती है।