कृत्रिम बुद्धिमत्ता के क्षेत्र में एक बड़ी सफलता मिली है। AIbase को सोशल मीडिया से पता चला है कि बाइटडांस ने हाल ही में अपने नए बहु-मोडल जनरेटिव मॉडल Liquid को ओपन सोर्स किया है, जो एक अभिनव एकीकृत एन्कोडिंग विधि और एकल बड़े भाषा मॉडल (LLM) आर्किटेक्चर के साथ दृश्य समझ और पीढ़ी कार्यों के निर्बाध एकीकरण को प्राप्त करता है। यह रिलीज न केवल बहु-मोडल AI में बाइटडांस की तकनीकी महत्वाकांक्षा को दर्शाता है, बल्कि वैश्विक डेवलपर्स को एक शक्तिशाली ओपन-सोर्स टूल भी प्रदान करता है। यहां AIbase द्वारा Liquid मॉडल का गहन विश्लेषण दिया गया है, जिसमें इसकी तकनीकी नवाचार, मुख्य खोज और उद्योग पर प्रभाव का पता लगाया गया है।

image.png

Liquid मॉडल का आगमन: बहु-मोडल पीढ़ी का एक नया प्रतिमान

Liquid एक स्व-पुनरावर्ती पीढ़ी वाला बहु-मोडल मॉडल है, जिसका मुख्य नवाचार छवियों और पाठ को एक ही असतत टोकन स्थान पर एन्कोड करना है, और एकल LLM के माध्यम से दृश्य समझ और पीढ़ी कार्यों को एक साथ संसाधित करना है। AIbase को पता चला है कि Liquid पारंपरिक बहु-मोडल मॉडल की बाहरी पूर्व-प्रशिक्षित दृश्य एम्बेडिंग (जैसे CLIP) पर निर्भरता को त्याग देता है, और छवियों को असतत एन्कोडिंग में बदलने के लिए VQVAE (वेक्टर क्वांटाइजेशन वैरिएशनल ऑटोएन्कोडर) का उपयोग करता है, जो पाठ टोकन के साथ सुविधा स्थान साझा करता है। इस डिज़ाइन से मॉडल आर्किटेक्चर को काफी सरल बनाया गया है, जिससे प्रशिक्षण दक्षता में वृद्धि हुई है।

सोशल मीडिया प्रतिक्रिया से पता चलता है कि डेवलपर्स ने Liquid की एकीकृत पीढ़ी क्षमता की अत्यधिक सराहना की है। चाहे उच्च-गुणवत्ता वाली छवियां उत्पन्न करना हो, जटिल दृश्य परिदृश्यों को समझना हो, या लंबे पाठ कार्यों को संसाधित करना हो, Liquid ने उत्कृष्ट प्रदर्शन दिखाया है। AIbase का मानना है कि Liquid का ओपन-सोर्स रिलीज (GitHub और Hugging Face पर होस्ट किया गया) बहु-मोडल AI के समुदाय के नवाचार को तेज करेगा।

image.png

मुख्य तकनीक: एकल LLM बहु-मोडल कार्यों को चलाता है

Liquid का आर्किटेक्चर डिज़ाइन निम्नलिखित प्रमुख तकनीकी बिंदुओं पर केंद्रित है:

एकीकृत टोकन स्थान: VQVAE के माध्यम से छवियों को असतत टोकन में एन्कोड किया जाता है, जो एक ही सुविधा स्थान में पाठ टोकन के साथ प्रशिक्षित होता है, जिससे मॉडल दृश्य और भाषा कार्यों के बीच निर्बाध रूप से स्विच कर सकता है, अतिरिक्त प्रसार मॉड्यूल की आवश्यकता नहीं होती है।

एकल LLM आर्किटेक्चर: मौजूदा LLM (जैसे Qwen2.5, Gemma2) के शब्दकोश का विस्तार करके, Liquid मिश्रित प्रशिक्षण (60M बहु-मोडल डेटा) के माध्यम से दृश्य पीढ़ी, दृश्य समझ और भाषा क्षमताओं को एक साथ अनुकूलित करता है, जिससे प्रशिक्षण लागत में 100 गुना की बचत होती है।

बहु-मोडल पारस्परिक क्रिया: Liquid ने पाया कि दृश्य पीढ़ी और समझ कार्य एक ही टोकन स्थान में एक दूसरे को बढ़ा सकते हैं, शुरुआती मॉडल में कार्य हस्तक्षेप की समस्या को समाप्त कर सकते हैं।

AIbase विश्लेषण, Liquid की स्व-पुनरावर्ती पीढ़ी विधि इसे उच्च-रिज़ॉल्यूशन छवियों (FID5.47, MJHQ-30K) उत्पन्न करने में SD v2.1 और SD-XL से बेहतर बनाती है, साथ ही GenAI-Bench परीक्षण में अन्य स्व-पुनरावर्ती बहु-मोडल मॉडल को पार करती है, जो जटिल संकेतों की शब्दार्थ संरेखण क्षमता को दर्शाता है।

ब्रेकथ्रू खोज: पैमाने पर प्रदर्शन समझौते को समाप्त करना

Liquid की मुख्य शोध खोज ने बहु-मोडल प्रशिक्षण की पारंपरिक समझ को बदल दिया है। शोध पत्र में कहा गया है कि छोटे पैमाने के मॉडल में, दृश्य और भाषा कार्यों के संयुक्त प्रशिक्षण से भाषा क्षमता में कमी आ सकती है। हालांकि, Liquid ने पहली बार बहु-मोडल प्रशिक्षण के पैमाने के नियम का खुलासा किया: जैसे-जैसे मॉडल का पैमाना 0.5B से बढ़कर 32B हो जाता है, दृश्य और भाषा कार्यों के प्रदर्शन समझौते धीरे-धीरे गायब हो जाते हैं, और यहां तक कि पारस्परिक संवर्धन प्रभाव भी दिखाई देते हैं।

AIbase को सोशल मीडिया से पता चला है कि इस खोज ने डेवलपर्स के बीच बहस छेड़ दी है। उदाहरण के लिए, Liquid-7B दृश्य पीढ़ी (VQAscore Chameleon से बेहतर) और भाषा कार्यों (LLaMA2 के बराबर) दोनों में उत्कृष्ट प्रदर्शन करता है, जिससे बड़े पैमाने पर प्रशिक्षण की क्षमता की पुष्टि होती है। AIbase का मानना है कि यह नियम भविष्य के अल्ट्रा-लार्ज-स्केल बहु-मोडल मॉडल के डिजाइन के लिए महत्वपूर्ण मार्गदर्शन प्रदान करता है।

प्रदर्शन और ओपन-सोर्स पारिस्थितिकी तंत्र: डेवलपर्स के लिए एक नया उपकरण

Liquid का प्रदर्शन प्रदर्शन उल्लेखनीय है। AIbase ने प्रमुख बेंचमार्क परीक्षणों में इसके परिणामों को संकलित किया है:

दृश्य पीढ़ी: MJHQ-30K परीक्षण में, Liquid-7B का FID मान 5.47 है, जो SD-XL और Chameleon से बेहतर है, उत्पन्न छवियां विवरण और शब्दार्थ संगति में उत्कृष्ट प्रदर्शन करती हैं।

दृश्य समझ: GenAI-Bench के जटिल दृश्य-भाषा तर्क कार्यों में, Liquid अन्य स्व-पुनरावर्ती मॉडल को पार करता है, जो प्रसार मॉडल के प्रदर्शन के करीब है।

भाषा क्षमता: उच्च-गुणवत्ता वाले मिश्रित प्रशिक्षण के कारण, Liquid पाठ कार्यों में मुख्यधारा के LLM (जैसे LLaMA2) के समान स्तर बनाए रखता है।

Liquid की ओपन-सोर्स रणनीति ने इसके प्रभाव को और बढ़ा दिया है। AIbase को पता चला है कि Liquid 0.5B से 32B तक कई मॉडल आकार प्रदान करता है, डेवलपर्स को केवल बुनियादी ट्रांसफॉर्मर लाइब्रेरी की आवश्यकता होती है, जटिल पर्यावरण निर्भरता की आवश्यकता नहीं होती है। सोशल मीडिया पर, डेवलपर्स ने पहले ही Liquid के आधार पर रचनात्मक अनुप्रयोगों का विकास शुरू कर दिया है, जैसे पाठ-संचालित कला पीढ़ी और बहु-मोडल प्रश्नोत्तर प्रणाली।

उद्योग पर प्रभाव: बहु-मोडल AI परिदृश्य को फिर से आकार देना

Liquid के रिलीज ने बहु-मोडल AI क्षेत्र में बाइटडांस की वैश्विक प्रतिस्पर्धा को मजबूत किया है। AIbase ने देखा है कि OpenAI के Chameleon (जिसे स्क्रैच से प्रशिक्षित करने की आवश्यकता है) या Google के Gemini (जो बाहरी दृश्य एन्कोडर पर निर्भर करता है) की तुलना में, Liquid कम प्रशिक्षण लागत और उच्च लचीलेपन के साथ तुलनीय प्रदर्शन प्रदान करता है। इसका ओपन-सोर्स मॉडल और कम लागत वाला API (प्रति मिलियन टोकन $0.2 इनपुट, $1.1 आउटपुट) इसे छोटे और मध्यम आकार के उद्यमों और स्वतंत्र डेवलपर्स के लिए बहुत आकर्षक बनाता है।

उद्योग के लिए, Liquid का एकीकृत पीढ़ी प्रतिमान लघु वीडियो निर्माण, वर्चुअल सहायक और शैक्षिक सामग्री पीढ़ी जैसे परिदृश्यों के लिए नई संभावनाएं खोलता है। उदाहरण के लिए, मार्केटिंग टीम Liquid का उपयोग ब्रांड शैली की वीडियो सामग्री को तेज़ी से उत्पन्न करने के लिए कर सकती है, और शैक्षिक संस्थान इंटरैक्टिव बहु-मोडल पाठ्यक्रम बना सकते हैं। AIbase का अनुमान है कि Liquid का ओपन-सोर्स पारिस्थितिकी तंत्र इसके आर्किटेक्चर पर आधारित अधिक कस्टम मॉडल को जन्म देगा, जिससे बहु-मोडल AI का प्रसार होगा।

चुनौतियाँ और दृष्टिकोण: व्यापक अनुप्रयोग की ओर

हालांकि Liquid उत्कृष्ट प्रदर्शन करता है, AIbase ने सोशल मीडिया पर उपयोगकर्ताओं द्वारा उल्लिखित कुछ चुनौतियों पर ध्यान दिया है। उदाहरण के लिए, छोटे पैमाने के मॉडल के प्रदर्शन समझौते को अभी भी अनुकूलित करने की आवश्यकता है, और जटिल परिदृश्यों की पीढ़ी में विवरण विकृति हो सकती है। AIbase डेवलपर्स को आउटपुट प्रभाव को बेहतर बनाने के लिए उच्च-गुणवत्ता वाले डेटासेट और परिष्कृत प्रॉम्प्ट को संयोजित करने का सुझाव देता है। इसके अलावा, मॉडल की डेटा गोपनीयता और नैतिक उपयोग को और स्पष्ट करने की आवश्यकता है, खासकर संवेदनशील सामग्री उत्पन्न करते समय।

भविष्य के लिए, बाइटडांस Liquid के मोडल समर्थन (जैसे ऑडियो, वीडियो) का विस्तार करने और लागत को और कम करने के लिए वितरित प्रशिक्षण का पता लगाने की योजना बना रहा है। AIbase का अनुमान है कि समुदाय के योगदान में वृद्धि के साथ, Liquid बहु-मोडल एजेंट और रीयल-टाइम इंटरैक्शन क्षेत्र में बड़ी सफलता प्राप्त कर सकता है।

शोध पत्र का पता: https://arxiv.org/pdf/2412.04332