29 जून 2025 को, अलीबाबा इंटरनेशनल AI टीम ने एक नए बहुमाध्यमिक बड़े मॉडल **Ovis-U1** का आधिकारिक रूप से उद्घाटन किया, जो इस क्षेत्र में एक और महत्वपूर्ण प्रगति को चिह्नित करता है। Ovis श्रृंखला के अंतिम उत्पाद के रूप में, Ovis-U1 बहुमाध्यमिक समझ, छवि उत्पादन और छवि संपादन क्षमताओं को एक साथ लाता है, जो एक शक्तिशाली अंतर-माध्यम प्रसंस्करण क्षमता को दर्शाता है, जो विकासकर्ताओं, अनुसंधानकर्ताओं और उद्योग अनुप्रयोगों के लिए नए संभावनाओं की पेशकश करता है। नीचे AIbase द्वारा Ovis-U1 के बारे में विस्तृत रिपोर्ट है।
Ovis-U1: तीन-एक-साथ बहुमाध्यमिक एकीकृत ढांचा
Ovis-U1 अलीबाबा इंटरनेशनल AI टीम द्वारा Ovis श्रृंखला संरचना पर बनाया गया 3 बिलियन पैरामीटर मॉडल है, जो बहुमाध्यमिक समझ, लेखन-छवि और छवि संपादन के एकीकरण के पहले अवसर को लाता है। AIbase के अनुसार, इस मॉडल में नवाचार वाली संरचना डिजाइन का उपयोग किया गया है, जो दृश्य टोकनाइज़र (Visual Tokenizer), दृश्य एम्बेडिंग टेबल और बड़े भाषा मॉडल (LLM) जैसे तीन मुख्य घटकों के माध्यम से दृश्य और पाठ एम्बेडिंग को उच्च कार्यक्षमता के साथ एकीकृत करता है। ऐसी संरचनात्मक एकीकरण विधि पारंपरिक बहुमाध्यमिक मॉडल के माध्यम में परिवर्तन में सीमाओं को दूर करती है और मॉडल के जटिल परिस्थितियों में प्रदर्शन में महत्वपूर्ण सुधार करती है।
Ovis-U1 विभिन्न प्रकार के इनपुट जैसे पाठ और छवि के साथ निपट सकता है और गणितीय अनुमान, वस्तुओं की पहचान, पाठ निकालना, वीडियो समझ आदि के कार्यों में अद्वितीय क्षमता दिखाता है। उदाहरण के लिए, यह छवि में वस्तुओं या हस्तलिखित पाठ की सटीक पहचान कर सकता है, और उपयोगकर्ता के निर्देशों के आधार पर उच्च गुणवत्ता वाली छवि बना सकता है या मौजूदा छवि को बुनियादी संपादन कर सकता है। इस "तीन-एक-साथ" क्षमता के कारण इसकी शिक्षा, ई-कॉमर्स, स्वास्थ्य देखभाल, ऑटोमेटेड ड्राइविंग आदि क्षेत्रों में बड़ा अनुप्रयोग क्षमता है।
तकनीकी उल्लेखनीय बिंदु: उच्च दक्षता वाली प्रशिक्षण और ख ter शेयरिंग
Ovis-U1 के विकास के लिए उन्नत प्रशिक्षण रणनीति और विविध डेटा सेट का उपयोग किया गया है। आधिकारिक जानकारी के अनुसार, मॉडल Python3.10, Torch2.4.0 और Transformers4.51.3 जैसे तकनीकी स्टैक के आधार पर बनाया गया है, जबकि प्रशिक्षण के दौरान DeepSpeed0.15.4 अपनाया गया है, जो उच्च दक्षता और स्थिरता को सुनिश्चित करता है। इसके अलावा, Ovis-U1 Ovis श्रृंखला के ओपन-सोर्स परंपरा का अनुसरण करता है, Apache2.0 लाइसेंस अनुबंध के साथ, कोड, मॉडल वजन और प्रशिक्षण डेटा Hugging Face और GitHub पर खुले रूप से उपलब्ध हैं, जिससे विकासकर्ता आसानी से वातावरण की समायोजन के माध्यम से इसे पुनः प्राप्त कर सकते हैं और लागू कर सकते हैं।
AIbase नोट करता है कि Ovis-U1 के प्रशिक्षण में नियमितता जांच एल्गोरिदम का उपयोग किया गया है, जो मॉडल आउटपुट के नैतिक और कानूनी मानकों के अनुरूप होने की गारंटी देता है। ऐसी पारदर्शी विकास विधि अलीबाबा के ओपन-सोर्स समुदाय पर योगदान को दर्शाती है, और विश्वव्यापी विकासकर्ताओं के लिए बहुमाध्यमिक AI की खोज के लिए आसान उपकरण प्रदान करती है।
Ovis-U1 की बहुमाध्यमिक क्षमता वास्तविक अनुप्रयोगों में उत्कृष्ट प्रदर्शन दिखाती है। उदाहरण के लिए, ई-कॉमर्स क्षेत्र में, Ovis-U1 उत्पाद छवि के विश्लेषण के माध्यम से विभिन्न भाषाओं में विवरण बना सकता है, या उपयोगकर्ता की आवश्यकता के अनुसार उत्पाद प्रदर्शन छवि को संपादित कर सकता है, जो उपभोक्ता अनुभव में सुधार करता है। शैक्षिक परिस्थितियों में, यह हस्तलिखित गणितीय सूत्रों की पहचान कर सकता है और विस्तृत समाधान प्रदान कर सकता है, जो छात्रों की शिक्षा में सहायता करता है। इसके अलावा, Ovis-U1 व्यंजन बनाने, वीडियो सामग्री के विश्लेषण आदि के कार्यों का समर्थन करता है, जो स्मार्ट होम और सामग्री रचना के लिए नवाचार समाधान प्रदान करता है।
AIbase मानता है कि Ovis-U1 के उद्घाटन ने अलीबाबा के बहुमाध्यमिक AI क्षेत्र में नेतृत्व को मजबूत किया है और ओपन-सोर्स प्रतिमान के माध्यम से वैश्विक AI प्रौद्योगिकी के फैलाव और प्रगति को बढ़ावा दिया है। भविष्य में, Ovis-U1 कई उद्योग स्थितियों में लागू होने की संभावना है, जो दृश्य, भाषा और निर्णय के बीच बुद्धिमान सेतु के रूप में काम करेगा।
Ovis-U1 के उद्घाटन के बाद, सोशल मीडिया पर कई चर्चा हुई है। कई विकासकर्ताओं ने मॉडल की बहु-कार्यक्षमता और ओपन-सोर्स विशेषताओं की सराहना की है, जो मध्यम आकार के उद्यमों और व्यक्तिगत विकासकर्ताओं के लिए निम्न बाधाओं वाले AI समाधान प्रदान करता है। AIbase अनुमान लगाता है कि Ovis-U1 के व्यापक उपयोग के साथ, समुदाय में अधिक नवाचार उपयोग मामलों के उद्भव होंगे।
परियोजना: (https://huggingface.co/AIDC-AI/Ovis-U1-3B)