1. बाइट डैंप ने हाल ही में अपना सबसे नया खोलने वाला मल्टीमोडल बेसिक मॉडल - BAGEL (Big Advanced Generalized Embodied Learner) सार्वजनिक किया है, जो 7 अरब प्रभावी पैरामीटरों के साथ मल्टीमोडल AI मॉडलों के नए चरण को शुरू करता है। BAGEL की छवि समझने, उत्पादन और संपादन जैसी महत्वपूर्ण कार्यों में उत्कृष्ट प्रदर्शन किया गया है, और वर्तमान आधुनिक सार्वजनिक छवि-पाठ मॉडलों (VLM) के साथ तुलना में कई मानक मापदंडों पर अधिक प्रदर्शन दिखाया है, जैसे Qwen2.5-VL और InternVL-2.5।

  2. BAGEL मॉडल को विशाल मात्रा में मिश्रित मल्टीमोडल डेटा पर प्रशिक्षित किया गया है, जिससे यह मॉडल उच्च श्रेणी के पाठ से छवि बनाने की क्षमता में बहुत शक्तिशाली हो गया है, जो कि पेशेवर ग्रेड बनाए रखने वाले Stable Diffusion3 (SD3) के साथ भी मिलता है। BAGEL के छवि संपादन, स्वतंत्र रूप से ऑपरेशन, और बहुपरिदृश्य संयोजन जैसी जटिल कार्यों में प्रदर्शन, वर्तमान मॉडलों की तुलना में सुधार के लक्ष्यों पर दिखाए गए हैं, जिससे यह विशेषज्ञों के बीच अग्रगण्यता प्राप्त करता है।

  3. QQ20250526-093643.png

  4. QQ20250526-093648.png

  5. टेक्नोलॉजीकी आर्किटेक्चर के क्षेत्र में, BAGEL मिश्रित ट्रांसफार्मर-विशेषज्ञ (MoT) संरचना का उपयोग करता है और दो स्वतंत्र कोडर्स का उपयोग करके छवि के पिक्सेल स्तर और अर्थ स्तर की विशेषताओं को कैप्चर करता है। इसका प्रशिक्षण परिदृश्य "अगले सेट मार्कर प्रेडिक्शन" स्ट्रैटेजी का पालन करता है, जो बेहतर मल्टीमोडल पूर्व प्रशिक्षण और सुरक्षित पढ़ाई के लिए अधिक कुशलता प्रदान करता है, और इस प्रकार बोध और उत्पादन क्षमताओं में चरम पर बढ़ावा देता है।

  6. डेवलपर्स को इस्तेमाल करने के लिए बाइट डैंप ने प्रीट्रेन मॉडल और एव्यूएस क्रिप्ट फ़ाइलों को सार्वजनिक किया है, और विस्तृत इस्तेमाल की डॉक्यूमेंटेशन और Gradio WebUI भी प्रदान की है, जो तेजी से डिप्लॉइमेंट और परीक्षण करने में मदद करता है। उपयोगकर्ता GitHub Pages से सभी संसाधनों को प्राप्त कर सकते हैं।

  7. शोध टीम ने समुदाय को मॉडल अपग्रेड करने में शामिल होने के लिए प्रोत्साहित किया है, और वास्तविक वातावरण में मॉडल के प्रदर्शन की समस्याओं को GitHub Issue या Discord चैनल पर प्रतिक्रिया के माध्यम से साझा करने का आमंत्रण दिया है। बाइट डैंप ने कहा है कि निरंतर खुले सहयोग बगुले रहने वाले BAGEL के प्रगति के लिए एक महत्वपूर्ण घटक होगा।

  8. बोध, उत्पादन और संपादन की क्षमताओं के साथ एक संग्रहीत मल्टीमोडल मॉडल के रूप में, BAGEL के रिलीज़ के बारे में बोल रहे हैं जो एक जनरल आर्टिफिशियल इंटेलिजेंस (AI) के नए, उपयोगी और खुले चरण को संकेत करता है।