अली ओविस-यू1 का झटका लेने वाला उत्सर्जन: मल्टीमोडल AI तीन एक साथ खुला स्रोत विकासकर्ताओं के लिए शक्ति प्रदान करता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 8 मिनट पढ़ें · Jun 30, 2025

29 जून 2025 को, अलीबाबा इंटरनेशनल AI टीम ने एक नए बहुमाध्यमिक बड़े मॉडल **Ovis-U1** का आधिकारिक रूप से उद्घाटन किया, जो इस क्षेत्र में एक और महत्वपूर्ण प्रगति को चिह्नित करता है। Ovis श्रृंखला के अंतिम उत्पाद के रूप में, Ovis-U1 बहुमाध्यमिक समझ, छवि उत्पादन और छवि संपादन क्षमताओं को एक साथ लाता है, जो एक शक्तिशाली अंतर-माध्यम प्रसंस्करण क्षमता को दर्शाता है, जो विकासकर्ताओं, अनुसंधानकर्ताओं और उद्योग अनुप्रयोगों के लिए नए संभावनाओं की पेशकश करता है। नीचे AIbase द्वारा Ovis-U1 के बारे में विस्तृत रिपोर्ट है।

Ovis-U1: तीन-एक-साथ बहुमाध्यमिक एकीकृत ढांचा

Ovis-U1 अलीबाबा इंटरनेशनल AI टीम द्वारा Ovis श्रृंखला संरचना पर बनाया गया 3 बिलियन पैरामीटर मॉडल है, जो बहुमाध्यमिक समझ, लेखन-छवि और छवि संपादन के एकीकरण के पहले अवसर को लाता है। AIbase के अनुसार, इस मॉडल में नवाचार वाली संरचना डिजाइन का उपयोग किया गया है, जो दृश्य टोकनाइज़र (Visual Tokenizer), दृश्य एम्बेडिंग टेबल और बड़े भाषा मॉडल (LLM) जैसे तीन मुख्य घटकों के माध्यम से दृश्य और पाठ एम्बेडिंग को उच्च कार्यक्षमता के साथ एकीकृत करता है। ऐसी संरचनात्मक एकीकरण विधि पारंपरिक बहुमाध्यमिक मॉडल के माध्यम में परिवर्तन में सीमाओं को दूर करती है और मॉडल के जटिल परिस्थितियों में प्रदर्शन में महत्वपूर्ण सुधार करती है।

Ovis-U1 विभिन्न प्रकार के इनपुट जैसे पाठ और छवि के साथ निपट सकता है और गणितीय अनुमान, वस्तुओं की पहचान, पाठ निकालना, वीडियो समझ आदि के कार्यों में अद्वितीय क्षमता दिखाता है। उदाहरण के लिए, यह छवि में वस्तुओं या हस्तलिखित पाठ की सटीक पहचान कर सकता है, और उपयोगकर्ता के निर्देशों के आधार पर उच्च गुणवत्ता वाली छवि बना सकता है या मौजूदा छवि को बुनियादी संपादन कर सकता है। इस "तीन-एक-साथ" क्षमता के कारण इसकी शिक्षा, ई-कॉमर्स, स्वास्थ्य देखभाल, ऑटोमेटेड ड्राइविंग आदि क्षेत्रों में बड़ा अनुप्रयोग क्षमता है।

तकनीकी उल्लेखनीय बिंदु: उच्च दक्षता वाली प्रशिक्षण और ख ter शेयरिंग

Ovis-U1 के विकास के लिए उन्नत प्रशिक्षण रणनीति और विविध डेटा सेट का उपयोग किया गया है। आधिकारिक जानकारी के अनुसार, मॉडल Python3.10, Torch2.4.0 और Transformers4.51.3 जैसे तकनीकी स्टैक के आधार पर बनाया गया है, जबकि प्रशिक्षण के दौरान DeepSpeed0.15.4 अपनाया गया है, जो उच्च दक्षता और स्थिरता को सुनिश्चित करता है। इसके अलावा, Ovis-U1 Ovis श्रृंखला के ओपन-सोर्स परंपरा का अनुसरण करता है, Apache2.0 लाइसेंस अनुबंध के साथ, कोड, मॉडल वजन और प्रशिक्षण डेटा Hugging Face और GitHub पर खुले रूप से उपलब्ध हैं, जिससे विकासकर्ता आसानी से वातावरण की समायोजन के माध्यम से इसे पुनः प्राप्त कर सकते हैं और लागू कर सकते हैं।

AIbase नोट करता है कि Ovis-U1 के प्रशिक्षण में नियमितता जांच एल्गोरिदम का उपयोग किया गया है, जो मॉडल आउटपुट के नैतिक और कानूनी मानकों के अनुरूप होने की गारंटी देता है। ऐसी पारदर्शी विकास विधि अलीबाबा के ओपन-सोर्स समुदाय पर योगदान को दर्शाती है, और विश्वव्यापी विकासकर्ताओं के लिए बहुमाध्यमिक AI की खोज के लिए आसान उपकरण प्रदान करती है।

Ovis-U1 की बहुमाध्यमिक क्षमता वास्तविक अनुप्रयोगों में उत्कृष्ट प्रदर्शन दिखाती है। उदाहरण के लिए, ई-कॉमर्स क्षेत्र में, Ovis-U1 उत्पाद छवि के विश्लेषण के माध्यम से विभिन्न भाषाओं में विवरण बना सकता है, या उपयोगकर्ता की आवश्यकता के अनुसार उत्पाद प्रदर्शन छवि को संपादित कर सकता है, जो उपभोक्ता अनुभव में सुधार करता है। शैक्षिक परिस्थितियों में, यह हस्तलिखित गणितीय सूत्रों की पहचान कर सकता है और विस्तृत समाधान प्रदान कर सकता है, जो छात्रों की शिक्षा में सहायता करता है। इसके अलावा, Ovis-U1 व्यंजन बनाने, वीडियो सामग्री के विश्लेषण आदि के कार्यों का समर्थन करता है, जो स्मार्ट होम और सामग्री रचना के लिए नवाचार समाधान प्रदान करता है।

AIbase मानता है कि Ovis-U1 के उद्घाटन ने अलीबाबा के बहुमाध्यमिक AI क्षेत्र में नेतृत्व को मजबूत किया है और ओपन-सोर्स प्रतिमान के माध्यम से वैश्विक AI प्रौद्योगिकी के फैलाव और प्रगति को बढ़ावा दिया है। भविष्य में, Ovis-U1 कई उद्योग स्थितियों में लागू होने की संभावना है, जो दृश्य, भाषा और निर्णय के बीच बुद्धिमान सेतु के रूप में काम करेगा।

Ovis-U1 के उद्घाटन के बाद, सोशल मीडिया पर कई चर्चा हुई है। कई विकासकर्ताओं ने मॉडल की बहु-कार्यक्षमता और ओपन-सोर्स विशेषताओं की सराहना की है, जो मध्यम आकार के उद्यमों और व्यक्तिगत विकासकर्ताओं के लिए निम्न बाधाओं वाले AI समाधान प्रदान करता है। AIbase अनुमान लगाता है कि Ovis-U1 के व्यापक उपयोग के साथ, समुदाय में अधिक नवाचार उपयोग मामलों के उद्भव होंगे।

परियोजना: (https://huggingface.co/AIDC-AI/Ovis-U1-3B)

ओविस-यू1 मल्टीमोडल बड़ा मॉडल अलीबाबा अंतरराष्ट्रीय AI टीम AIbase

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

कंलून वैमी ने बड़ा अपडेट किया Skywork-R1V 3.0: एक अद्भुत अवधारणा आंतरिक तर्क में मानव विशेषज्ञों के समान बन गया है!

कंलून वैमी ने ओपन सोर्स बहुमाध्यमिक मॉडल Skywork-R1V3.0 जारी किया, जो बहुमाध्यमिक तार्किक क्षमता में मानव प्रारंभिक विशेषज्ञों तक पहुंच गई। इस मॉडल को सुदृढीकरण अधिकार रणनीति के आधार पर बनाया गया है, केवल 1.2 हजार संशोधित नमूनों और 1.3 हजार सुदृढीकरण अधिकार नमूनों के साथ अद्भुत कार्यक्षमता हासिल की गई। MMMU मूल्यांकन में 76 अंक के साथ क्लॉड-3.7-सॉनेट और GPT-4.5 जैसे बंद स्रोत मॉडल को पार कर गया, भौतिकी, तार्किक और गणितीय तर्क में विशेष रूप से अच्छा प्रदर्शन किया, जैसे भौतिकी तर्क के 52.8 अंक, तार्किक तर्क के 59.7 अंक, गणितीय

Jul 9, 2025

विडू Q1 झटका अपग्रेड: प्रतिलिपि से वीडियो समर्थन अधिकतम सात छवियों तक, AI वीडियो जनरेशन फिर से नई ऊंचाई पर

Jul 9, 2025

मेंटू ने फिर से शारीरिक बुद्धिमत्ता के क्षेत्र में निवेश किया, चिंगहाइ चार्ट ने 1 बिलियन डॉलर से अधिक का वित्त पोषण किया

Jul 9, 2025

AI खरीदारी सहायक अमेज़ॅन प्राइम डे के बिक्री में 23.8 अरब डॉलर के नए रिकॉर्ड को तोड़ेगा

Jul 9, 2025

AI भी सूचना बमबारी के डर में है? नई अध्ययन एआई चैटबॉट को सुरक्षा नियमों का पालन न करने के लिए धोखा देने में सक्षम है

अनुसंधानकर्ता नए एआई हमला विधि सूचना बम (इंफोफ्लड) के बारे में जाने, जो चैटबॉट को अत्यधिक सूचना भेजकर सुरक्षा बाधाओं को पार करने में सक्षम है। इस प्रणाली झूठे संदर्भ और असंबद्ध घोषणाओं का उपयोग AI के निर्णय को बाधित करने के लिए करती है, जिससे एआई मॉडल जैसे चैटजीपीटी सुरक्षा नियमों का पालन नहीं करते। अध्ययन दर्शाता है कि सामान्य शब्द-आधारित फ़िल्टर जानकारी बम के सामने असफल रहते हैं, जिसके माध्यम से खराब उपयोगकर्ता हानिकारक सामग्री प्रवेश करा सकते हैं। विशेषज्ञ एआई सुरक्षा उपायों के बारे में चिंतित हैं और आवश्यक नैतिक चर्चा को बढ़ावा देने के लिए कहते हैं।

Jul 9, 2025

विडू क्यू1 आउटपुट वीडियो दुनिया भर में उपलब्ध है सबसे अधिक 7 पात्रों का समर्थन करता है

एआई वीडियो क्षेत्र में एक महान क्रांति हुई है- शेंग शू टेक्नोलॉजी द्वारा पेश किया गया विडू क्यू1 वीडियो मॉडल अब रेफरेंस लेने वाला कार्यक्रम उपलब्ध है, जो कि 'कल्पना से वीडियो सामग्री बनाने में केवल एक चरण की आवश्यकता होती है' के विपरीत अनुभव के साथ सामग्री रचना के तकनीकी सीमाओं और उत्पादन दक्षता को पुन: परिभाषित करता है। पारंपरिक वीडियो निर्माण प्रक्रिया में, कलाकारों को स्क्रिप्ट लिखना, पात्रों का डिज़ाइन करना, स्केच बनाना, वास्तविक स्थान पर शूटिंग करना, बाद में काटना आदि जैसे जटिल चरणों द्वारा गुजरना पड़ता है, एक छोटी फिल्म के जन्म में सप्ताहों या महीनों का समय लग सकता है। लेकिन विडू क्यू1 रेफरेंस लेने वाला कार्यक्रम के पेश करने से इस परंपरागत मोड को बिल्कुल तोड़ दिया गया है। उपयोगकर्ता

Jul 8, 2025

लवेबल7 महीने के आय 8000 मिलियन डॉलर टीम के आधे हिस्से AI जन्मे कर्मचारी हैं

Jul 8, 2025

4000 छात्र एवं माता-पिता AI के साथ प्रवेश योग्यता भरते हैं, क्वार्क ने एग्जाम सेवा के रिकॉर्ड को तोड़ा

2025 एग्जाम प्रवेश योग्यता सेवा समाप्त हो गई, क्वार्क प्लेटफॉर्म के आंकड़ों के अनुसार इसकी AI सेवा कई नए रिकॉर्ड बनाए: कुल सेवा 4000 लाख उपयोगकर्ताओं को प्रदान की गई, 12 लाख प्रवेश रिपोर्ट जनरेट की गई, और 33 करोड़ सवालों के जवाब दिए गए। इस वर्ष तीन मुख्य कार्यक्रमों को लॉन्च किया गया है जिसके आधार पर ऑन-सेल्फ एग्जाम मॉडल पर आधारित सेवाएं हैं, जो सलाह से निर्णय तक की पूरी प्रक्रिया के लिए स्वचालित सहायता प्रदान करती है। ध्यान देने योग्य बात यह है कि छात्रों के सवाल गहराई से व्यक्तिगत हो रहे हैं, जटिल सवालों के अनुपात दोगुना हो गया है। प्लेटफॉर्म ने गांव क्षेत्रों में AI सेवा की विस्तार के लिए 'मॉर्न ग्लो योजना' के माध्यम से लाभ देना शुरू कर दिया है, जिसके लिए पांच साल में 16 करोड़ उपयोगकर्ताओं की सेवा की गई है और इसके माध्यम से एक नया उदाहरण दिखाया है।

Jul 8, 2025

सैमसंग के द्वितीय चतुर्थांश में लाभ आधा हो सकता है, AI मांग के चुनौती का सामना कर रहा है

Jul 8, 2025

आई एआई टेबल्स के साथ डिंगडिंग: 1 घंटे में 1000 कार्य संभालें और डेटा विश्लेषण करें

Jul 8, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

अली ओविस-यू1 का झटका लेने वाला उत्सर्जन: मल्टीमोडल AI तीन एक साथ खुला स्रोत विकासकर्ताओं के लिए शक्ति प्रदान करता है

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

कंलून वैमी ने बड़ा अपडेट किया Skywork-R1V 3.0: एक अद्भुत अवधारणा आंतरिक तर्क में मानव विशेषज्ञों के समान बन गया है!

विडू Q1 झटका अपग्रेड: प्रतिलिपि से वीडियो समर्थन अधिकतम सात छवियों तक, AI वीडियो जनरेशन फिर से नई ऊंचाई पर

AI खरीदारी सहायक अमेज़ॅन प्राइम डे के बिक्री में 23.8 अरब डॉलर के नए रिकॉर्ड को तोड़ेगा

AI भी सूचना बमबारी के डर में है? नई अध्ययन एआई चैटबॉट को सुरक्षा नियमों का पालन न करने के लिए धोखा देने में सक्षम है

विडू क्यू1 आउटपुट वीडियो दुनिया भर में उपलब्ध है सबसे अधिक 7 पात्रों का समर्थन करता है

लवेबल7 महीने के आय 8000 मिलियन डॉलर टीम के आधे हिस्से AI जन्मे कर्मचारी हैं

4000 छात्र एवं माता-पिता AI के साथ प्रवेश योग्यता भरते हैं, क्वार्क ने एग्जाम सेवा के रिकॉर्ड को तोड़ा

सैमसंग के द्वितीय चतुर्थांश में लाभ आधा हो सकता है, AI मांग के चुनौती का सामना कर रहा है

आई एआई टेबल्स के साथ डिंगडिंग: 1 घंटे में 1000 कार्य संभालें और डेटा विश्लेषण करें