बाइटडंप ने BAGEL नामक एक ओपन सोर्स मल्टीमोडल बेसिक मॉडल का जारी करा दिया है, जिसमें 7 अरब एक्टिव पैरामीटर हैं और कुल पैरामीटर की संख्या 14 अरब तक पहुँच जाती है।

BAGEL मानक मल्टीमोडल समझ बेंचमार्क परीक्षणों में छोटे से बड़े प्रदर्शन करता है और वर्तमान में कुछ शीर्ष स्रोत दृश्य-भाषा मॉडलों से भी आगे जाता है, जैसे Qwen2.5-VL और InternVL-2.5। इसके अलावा, टेक्स्ट से इमेज उत्पादन की गुणवत्ता पर, BAGEL का प्रदर्शन SD3 के साथ मिलाने लायक है। और इसके ऊपर, क्लासिक इमेज एजिटिंग स्थितियों में BAGEL का प्रदर्शन बहुत से नेतृत्व वाले स्रोत मॉडलों की तुलना में बेहतर है।

BAGEL ने मिश्रित ट्रांसफार्मर विशेषज्ञ (MoT) नामक एक आर्किटेक्चर का उपयोग किया है, जो मॉडल के विविध मल्टीमोडल जानकारी का सीखने क्षमता को अधिकतम करने के लिए डिज़ाइन किया गया है। यह दो स्वतंत्र एन्कोडरों का उपयोग करता है, जो इमेज के पिक्सल-स्तरीय और सेमांटिक-स्तरीय विशेषताओं को क्रमशः पकड़ते हैं। मॉडल का पूरा फ़्रेमवर्क "अगले लेबल ग्रुप पूर्वानुमान" परिप्रेक्ष्य का पालन करता है, जिसमें प्रशिक्षण के दौरान अगला भाषा या दृश्य लेबल पूर्वानुमान किया जाता है, जिससे संकुचन का लक्ष्य होता है।
प्रीट्रेनिंग प्रक्रिया के दौरान, BAGEL ने भाषा, इमेज, वीडियो और नेटवर्क डेटा से अनेक लाखों करोड़ों क्रॉसलेक्टेड मल्टीमोडल लेबलों का उपयोग किया। निरंतर प्रशिक्षण और सुपरवाइज़्ड माइक्रोट्यूनिंग के बाद, BAGEL ने मानक समझ और उत्पादन बेंचमार्क परीक्षणों में स्रोत मॉडलों को पारे लिया, और अग्रणी बहुमॉडल क्षमताएं दिखाई, जैसे आज़माए इमेज एजिटिंग, भविष्य के फ्रेम पूर्वानुमान, तीन आयामी संचालन और विश्व नेविगेशन।
जैसे-जैसे BAGEL का प्रीट्रेनिंग बढ़ता गया, शोधकर्ताओं ने पाया कि मॉडल के प्रदर्शन समझ, उत्पादन और एजिटिंग कार्यों में लगातार सुधार हुआ। विभिन्न क्षमताएं प्रशिक्षण के विभिन्न चरणों में आती हैं, प्रारंभ में बहुमॉडल समझ और उत्पादन की क्षमता दिखाई देती है, जबकि बेहतर जटिल मॉडल एजिटिंग क्षमताएं बाद में दिखाई देती हैं।
अध्ययन के अनुसार, वैरिएशनल स्व-एन्कोडर (VAE) और विज्यूअल ट्रांसफॉर्मर (ViT) के सुधारों ने मॉडल की एजिटिंग क्षमता में महत्वपूर्ण सुधार किया, जो कि जटिल मल्टीमोडल अनुमान के लिए विज्यूअल-सेमांटिक कन्टेक्स्ट की महत्वपूर्णता को दर्शाता है।
प्रोजेक्ट: https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
महत्वपूर्ण बिंदु:
🌟 BAGEL एक ओपन सोर्स मल्टीमोडल बेसिक मॉडल है, जिसमें 7 अरब एक्टिव पैरामीटर हैं और कई मानक बेंचमार्क परीक्षणों में अग्रणी प्रदर्शन करता है।
🖼️ इस मॉडल का प्रदर्शन इमेज उत्पादन और एजिटिंग कार्यों में बेहतर है, जिससे आज़माए इमेज एजिटिंग और विश्व नेविगेशन की क्षमता होती है।
📈 मल्टीमोडल प्रीट्रेनिंग के माध्यम से, BAGEL ने जटिल मल्टीमोडल अनुमान कार्यों के लिए सुधार लगातार दिखाया है।