हाल ही में, सिलिकॉन बेस्ड फ्लो प्लेटफॉर्म ने अली के नए जारी किए गए Qwen3-VL श्रृंखला ओपन-सोर्स मॉडल को लॉन्च किया। इस श्रृंखला के मॉडल में दृश्य अवधारणा, समय विश्लेषण और बहु-माध्यम तर्क में महत्वपूर्ण प्रगति हुई है। छवि अस्पष्टता, वीडियो की जटिलता, आदि जैसी चुनौतियों के लिए, Qwen3-VL दृश्य ज्ञान क्षमता को प्रभावी ढंग से बढ़ा सकता है, जिससे उपयोगकर्ता जटिल दृश्य सूचना के प्रबंधन में आसानी से काम कर सकते हैं।
Qwen3-VL श्रृंखला मॉडल के मुख्य विशेषताओं में से एक उत्कृष्ट छवि पहचान क्षमता है, 32 भाषाओं के OCR के लिए समर्थन प्रदान करता है, जो कम प्रकाश, अस्पष्ट, झुके हुए पाठ के साथ सटीक रूप से निपट सकता है। साथ ही, यह मॉडल बहुत मजबूत छवि-लेखन समझ क्षमता भी है, शब्द आधारित मॉडल के साथ तुलना में, इसकी लेखन समझ में अपनाया गया है, जो गहरे छवि-लेखन संयोजन को संभव बनाता है।
वीडियो समझ में, Qwen3-VL श्रृंखला मूल रूप से 256K के संदर्भ प्रक्रमण समर्थन करता है, जो अधिकतम 1M तक विस्तारित किया जा सकता है, जिसका अर्थ है कि यह घंटों तक के वीडियो सामग्री के साथ निपट सकता है। सेकंड दर सेकंड सूचीबद्ध करने और सटीक वापसी के माध्यम से, Qwen3-VL वीडियो में महत्वपूर्ण घटनाओं की स्थिति को सुलभ रूप से निर्धारित कर सकता है और समयचिह्न संरेखण क्षमता रखता है, जिससे वीडियो सामग्री के विश्लेषण की दक्षता बढ़ जाती है।
इसके अलावा, Qwen3-VL बुद्धिमान व्यवहार में भी अच्छा प्रदर्शन करता है, जो सीधे पीसी या मोबाइल उपकरण के इंटरफेस से बातचीत कर सकता है, इंटरफेस तत्वों की पहचान कर सकता है, टूल्स का उपयोग कर सकता है और विभिन्न कार्य कर सकता है। इसकी दृश्य प्रोग्रामिंग क्षमता छवि के आधार पर उपयोगी सामग्री जैसे Draw.io चार्ट, HTML, CSS, JS आदि बनाने में सक्षम है, जो STEM और गणितीय तर्क जैसे कठिन कार्यों में अग्रणी प्रदर्शन दिखाता है।
अतिरिक्त रूप से, अंतर्निहित बहु-आयामी घूर्णन स्थिति कोडिंग और गहरे स्टैक्ड एकीकरण तकनीक के आविष्कार के माध्यम से, Qwen3-VL मॉडल लंबे वीडियो तर्क और छवि विशेषता अंकन में अद्वितीय प्रदर्शन करता है, जो दृश्य कार्य के निपटान क्षमता को बहुत बढ़ा देता है। मुख्य दृश्य अनुभव मूल्यांकन में, Qwen3-VL श्रृंखला मॉडल अन्य बंद-सोर्स मॉडल के मुकाबले बहुत अधिक प्रदर्शन करता है, जो इसकी मजबूत व्यापक क्षमता और समग्र प्रदर्शन को दर्शाता है।
सिलिकॉन बेस्ड फ्लो प्लेटफॉर्म विकासकर्ताओं को एक स्थान पर बड़े मॉडल सेवाएं प्रदान करता है, जिसमें विभिन्न उत्कृष्ट मॉडल शामिल हैं, जो भाषा, छवि, ध्वनि आदि के विभिन्न कार्य स्थितियों का समर्थन करते हैं। नए उपयोगकर्ता प्लेटफॉर्म के माध्यम से अनुभव उपहार प्राप्त कर सकते हैं और मॉडल की मजबूत क्षमता का सुलभ रूप से अनुभव कर सकते हैं।
मुख्य बिंदु:
🌟 Qwen3-VL श्रृंखला मॉडल 32 भाषाओं के OCR का समर्थन करता है और छवि और वीडियो समझ क्षमता के साथ अद्वितीय है।
🎥 घंटों तक के वीडियो सामग्री के साथ समर्थन मूल रूप से संभव है, जो सेकंड दर सेकंड सूचीबद्ध कर सकता है और महत्वपूर्ण घटनाओं के सटीक वापसी कर सकता है।
🖥️ बुद्धिमान व्यवहार क्षमता मजबूत है, जो इंटरफेस से बातचीत कर सकता है और विभिन्न कार्य कर सकता है, जो उत्पादकता में सुधार करता है।