बाइटडंप ने BAGEL नामक एक ओपन सोर्स मल्टीमोडल बेसिक मॉडल का जारी करा दिया है, जिसमें 7 अरब एक्टिव पैरामीटर हैं और कुल पैरामीटर की संख्या 14 अरब तक पहुँच जाती है।

image.png

BAGEL मानक मल्टीमोडल समझ बेंचमार्क परीक्षणों में छोटे से बड़े प्रदर्शन करता है और वर्तमान में कुछ शीर्ष स्रोत दृश्य-भाषा मॉडलों से भी आगे जाता है, जैसे Qwen2.5-VL और InternVL-2.5। इसके अलावा, टेक्स्ट से इमेज उत्पादन की गुणवत्ता पर, BAGEL का प्रदर्शन SD3 के साथ मिलाने लायक है। और इसके ऊपर, क्लासिक इमेज एजिटिंग स्थितियों में BAGEL का प्रदर्शन बहुत से नेतृत्व वाले स्रोत मॉडलों की तुलना में बेहतर है।

image.png

BAGEL ने मिश्रित ट्रांसफार्मर विशेषज्ञ (MoT) नामक एक आर्किटेक्चर का उपयोग किया है, जो मॉडल के विविध मल्टीमोडल जानकारी का सीखने क्षमता को अधिकतम करने के लिए डिज़ाइन किया गया है। यह दो स्वतंत्र एन्कोडरों का उपयोग करता है, जो इमेज के पिक्सल-स्तरीय और सेमांटिक-स्तरीय विशेषताओं को क्रमशः पकड़ते हैं। मॉडल का पूरा फ़्रेमवर्क "अगले लेबल ग्रुप पूर्वानुमान" परिप्रेक्ष्य का पालन करता है, जिसमें प्रशिक्षण के दौरान अगला भाषा या दृश्य लेबल पूर्वानुमान किया जाता है, जिससे संकुचन का लक्ष्य होता है।

प्रीट्रेनिंग प्रक्रिया के दौरान, BAGEL ने भाषा, इमेज, वीडियो और नेटवर्क डेटा से अनेक लाखों करोड़ों क्रॉसलेक्टेड मल्टीमोडल लेबलों का उपयोग किया। निरंतर प्रशिक्षण और सुपरवाइज़्ड माइक्रोट्यूनिंग के बाद, BAGEL ने मानक समझ और उत्पादन बेंचमार्क परीक्षणों में स्रोत मॉडलों को पारे लिया, और अग्रणी बहुमॉडल क्षमताएं दिखाई, जैसे आज़माए इमेज एजिटिंग, भविष्य के फ्रेम पूर्वानुमान, तीन आयामी संचालन और विश्व नेविगेशन।

जैसे-जैसे BAGEL का प्रीट्रेनिंग बढ़ता गया, शोधकर्ताओं ने पाया कि मॉडल के प्रदर्शन समझ, उत्पादन और एजिटिंग कार्यों में लगातार सुधार हुआ। विभिन्न क्षमताएं प्रशिक्षण के विभिन्न चरणों में आती हैं, प्रारंभ में बहुमॉडल समझ और उत्पादन की क्षमता दिखाई देती है, जबकि बेहतर जटिल मॉडल एजिटिंग क्षमताएं बाद में दिखाई देती हैं।

अध्ययन के अनुसार, वैरिएशनल स्व-एन्कोडर (VAE) और विज्यूअल ट्रांसफॉर्मर (ViT) के सुधारों ने मॉडल की एजिटिंग क्षमता में महत्वपूर्ण सुधार किया, जो कि जटिल मल्टीमोडल अनुमान के लिए विज्यूअल-सेमांटिक कन्टेक्स्ट की महत्वपूर्णता को दर्शाता है।

प्रोजेक्ट: https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

महत्वपूर्ण बिंदु:

🌟 BAGEL एक ओपन सोर्स मल्टीमोडल बेसिक मॉडल है, जिसमें 7 अरब एक्टिव पैरामीटर हैं और कई मानक बेंचमार्क परीक्षणों में अग्रणी प्रदर्शन करता है।  

🖼️ इस मॉडल का प्रदर्शन इमेज उत्पादन और एजिटिंग कार्यों में बेहतर है, जिससे आज़माए इमेज एजिटिंग और विश्व नेविगेशन की क्षमता होती है।  

📈 मल्टीमोडल प्रीट्रेनिंग के माध्यम से, BAGEL ने जटिल मल्टीमोडल अनुमान कार्यों के लिए सुधार लगातार दिखाया है।