सेल्सफोर्स AI रिचर्च ने हगिंग फेस प्लेटफॉर्म पर ब्लिप3-o ऐप का आधिकारिक जारी किया है, जो इसके शानदार इमेज समझने और उत्पन्न करने की क्षमता के कारण उद्योग में चर्चा का केंद्र बन गया है। ब्लिप3-o ने क्रिएटिव डिस्ट्रिब्यूशन ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करके CLIP इमेज विशेषताओं के साथ जुड़ने से प्रशिक्षण की प्रभावशीलता में वृद्धि की है और उत्पन्न अनुपात को बढ़ाने में मदद की है। AIbase ने ब्लिप3-o की तकनीकी तकनीकी जीत और इसके AI वातावरण पर प्रभाव को गहराई से विश्लेषित किया।
ब्लिप3-o कोर: एकीकृत मल्टीमोडल आर्किटेक्चर की तकनीकी जीत
ब्लिप3-o सेल्सफोर्स xGen-MM (ब्लिप-3) श्रृंखला का नवीनतम नतीजा है, जिसका उद्देश्य एक एकरूप अपवाद आर्किटेक्चर का उपयोग करके इमेज समझने और इमेज उत्पन्न करने को एकीकृत करना है। AIbase को पता चला है कि ब्लिप3-o ने पारंपरिक पिक्सल स्पेस डिकोडर को छोड़ दिया है और CLIP इमेज विशेषताओं के उत्पादन के लिए डिफ्यूज़न ट्रांसफॉर्मर का उपयोग किया है, जिससे प्रशिक्षण की गति 30% बढ़ गई है और उत्पन्न इमेज की स्पष्टता और विवरण पहले के मॉडलों की तुलना में बेहतर है।
ब्लिप-2 की तुलना में, ब्लिप3-o में आर्किटेक्चर, प्रशिक्षण विधि और डेटासेट में पूर्ण अपग्रेड किया गया है। मॉडल टेक्स्ट से इमेज उत्पन्न करने, इमेज वर्णन और विज़ुअल क्वेशन-आंस्वर के साथ विभिन्न कार्यों का समर्थन करता है। उदाहरण के लिए, यदि किसी उपयोगकर्ता को एक परिदृश्य की तस्वीर अपलोड करनी है और पूछा जाता है "इस चित्र में क्या तत्व है?", तो ब्लिप3-o 1 सेकंड में विस्तृत वर्णन पूरा कर सकता है, जिसकी सटीकता 95% है। AIbase के टेस्ट ने इसे जटिल टेक्स्ट-इमेज कार्यों (जैसे, डॉक्यूमेंट OCR और चार्ट विश्लेषण) पर खासकर उत्कृष्ट प्रदर्शन करते हुए दिखाया है।
फुल्ली ओपन सोर्स एकोसिस: कोड, मॉडल और डेटासेट प्रकाशित
ब्लिप3-o के प्रकाशन को सेल्सफोर्स के "ओपन सोर्स और ओपन साइंस" के विचार पर आधारित किया गया है, जिसमें मॉडल वजन, प्रशिक्षण कोड और डेटासेट हार्टफॉर्म प्लेटफॉर्म पर प्रकाशित किए गए हैं, Creative Commons Attribution Non Commercial 4.0 लाइसेंस के अनुसार, व्यावसायिक उपयोग के लिए अलग आवेदन करना होगा। AIbase को पता चला है कि ब्लिप3-o के प्रशिक्षण को BLIP3-OCR-200M डेटासेट पर निर्भर किया गया है, जिसमें लगभग 20 लाख टेक्स्ट-धनी इमेज नमूने हैं, जिन्हें PaddleOCR के 12-स्तरीय OCR लेबलिंग से जोड़ा गया है, जिससे मॉडल के डॉक्यूमेंट, चार्ट आदि पर क्रॉस-मोडल अनुमान शक्ति में वृद्धि हुई है।
डेवलपर्स निम्नलिखित तरीके से तेजी से ब्लिप3-o का प्रयोग कर सकते हैं:
मॉडल एक्सेस: Hugging Face पर Salesforce/blip3-phi3-mini-instruct-r-v1 जैसे मॉडल लोड करें और ट्रांसफॉर्मर्स लाइब्रेरी का उपयोग करके इमेज-टेक्स्ट कार्य का उपयोग करें।
कोड समर्थन: GitHub वर्कफ़ोलियो (salesforce/BLIP) में PyTorch अनुसरण किया जाता है, जिसमें 8 A100 GPU के साथ माइक्रोफ़िनिंग और मूल्यांकन का समर्थन किया जाता है।
ऑनलाइन डेमो: Hugging Face Spaces पर Gradio द्वारा ड्राइव किए गए वेब डेमो प्रदान किए गए हैं, जिससे उपयोगकर्ता सीधे इमेज अपलोड करके मॉडल के प्रभाव का परीक्षण कर सकते हैं।
AIbase का मानना है कि ब्लिप3-o का पूरी तरह से ओपन स्रोत रणनीति समुदाय के नवाचार को तेजी से बढ़ाएगी, विशेषकर शिक्षा और अनुसंधान क्षेत्र में गहरा प्रभाव होगा।
अनुप्रयोग: रचना से अनुसंधान तक का पूर्ण प्रविष्टिकर्ता
ब्लिप3-o की मल्टीमोडल क्षमता ने इसके विभिन्न अनुप्रयोगों में बड़ी जोशीलता दिखाई।
रचना: टेक्स्ट प्रेरणा के जरिए ऊंचा गुणवत्ता वाली इमेज बनाने की क्षमता, जिसका उपयोग विज्ञापन डिज़ाइन, सोशल मीडिया कंटेंट और कला के रचना में किया जाता है। AIbase का परीक्षण बताता है कि ब्लिप3-o द्वारा बनाए गए इमेज की विवरणीयता और रंग प्रदर्शन DALL·E3 के समान है।
अनुसंधान: BLIP3-OCR-200M डेटासेट के साथ जुड़ने से मॉडल शाक्स जर्नल पेपर्स, चार्ट और स्कैन किए गए डॉक्यूमेंट पर उत्कृष्ट प्रदर्शन प्रदर्शित करता है, OCR एक्साक्टन में 20% की वृद्धि हुई है।
इंटेलिजेंट इंटरैक्शन: विजुअल क्वेशन-आंस्वर और इमेज वर्णन का समर्थन, जिसका उपयोग शिक्षा सहयोगी, वर्चुअल गाइड और अनुपालन तकनीक में किया जा सकता है।
AIbase का परीक्षण बताता है कि ब्लिप3-o के ओपन स्रोत गुणवत्ता और उत्कृष्ट प्रदर्शन इसके इस्तेमाल में बहुत व्यापक उपयोग का लक्ष्य बना सकता है।
समुदाय का प्रतिक्रिया: डेवलपर्स और अनुसंधानकर्ताओं की उल्लास
ब्लिप3-o के प्रकाशन के बाद से सोशल मीडिया और Hugging Face समुदाय का प्रतिक्रिया भव्य है। डेवलपर्स इसे "मल्टीमोडल AI का खेल के नियम बदल देने वाला" कहते हैं, विशेषकर इसके ओपन स्रोत अनुपात और दक्ष प्रशिक्षण डिज़ाइन पर प्रशंसा करते हैं। AIbase ने देखा है कि Hugging Face पर ब्लिप3-o मॉडल पेज को प्रकाशन के बाद कई दिनों में 58,000 बार देखा गया है, और GitHub वर्कफ़ोलियो में 2000+ स्टार जुड़ गए हैं, जो समुदाय के प्रबल रुचि को दर्शाता है।