1. हाल ही में, Inclusion AI और शीटज़ ग्रुप ने "मिंग-ओम्नी" नामक एक उन्नत मल्टीमोडल मॉडल का रिलीज़ किया है, जो स्मार्ट तकनीक के लिए एक नया परिवर्तन को निश्चित करता है। मिंग-ओम्नी कैमरा इमेज, टेक्स्ट, ऑडियो और वीडियो का प्रोसेसिंग कर सकता है और इससे विभिन्न अनुप्रयोगों के लिए मजबूत समर्थन प्रदान करता है। इसकी क्षमताएं बोली और छवि उत्पादन शामिल करती हैं और मल्टीमोडल इनपुट के फ्यूज़ करने की क्षमता भी है।
  2. image.png
  3. समग्र मल्टीमोडल प्रोसेसिंग क्षमता
  4. मिंग-ओम्नी के डिज़ाइन में विशिष्ट एन्कोडर का उपयोग किया गया है जो विभिन्न मोडल के टोकेन्स (सिग्नल) को निकालता है, जिन्हें "लिंग" मॉड्यूल (अर्थात मिश्रित विशेषज्ञ आर्किटेक्चर, MoE) के साथ प्रोसेस किया जाता है, जिसमें नए प्रस्तावित मोडल-विशिष्ट रास्ते भी शामिल हैं। ऐसा बनाने से मिंग-ओम्नी कई प्रकार के टास्क को प्रोसेस करने और मल्टीमोडल इनपुट को फ्यूज़ करने में अधिक कुशल हो जाता है, बिना अतिरिक्त मॉडल, विशिष्ट कार्य के फाइनट्यूनिंग या संरचनात्मक रीकायड करने के।
  5. वाणी और छवि उत्पादन का नया ढंग
  6. पारंपरिक मल्टीमोडल मॉडलों की तुलना में, मिंग-ओम्नी का एक खास विशेषता यह है कि यह ऑडियो और छवि उत्पादन का समर्थन करता है। उनावरण ऑडियो डिकोडर के साथ इंटीग्रेट करके मिंग-ओम्नी नाटकीय और प्रवाहित वाणी का उत्पादन कर सकता है। इसके बारे में कहा जाता है कि इसका उपयोग किया गया है जो उच्च गुणवत्ता वाला छवि उत्पादन मॉडल "मिंग-लाइट-यूनी" जो छवि उत्पादन की परिशुद्धता को बढ़ाता है। इसके अलावा, यह मॉडल बातचीत के प्रसंस्करण, टेक्स्ट-टू-स्पीच ट्रांसफ़रमेंट और विभिन्न प्रकार के छवि संपादन का भी समर्थन करता है, जो इसके कई क्षेत्रों में उपयोग की क्षमता को साबित करता है।
  7. प्रवाहित वाणी और टेक्स्ट ट्रांसफ़र
  8. मिंग-ओम्नी की भाषा प्रोसेसिंग की क्षमता भी अग्रगण्य है। इसके पास दिसांत वाणी का समझ और वाणी क्लोनिंग की क्षमता है, जिससे इनपुट टेक्स्ट को विभिन्न दिसांत वाणी आउटपुट में बदला जा सकता है, जो इसकी बेहतरीन भाषा अनुकूलन क्षमता को दिखाता है। उदाहरण के लिए, उपयोगकर्ता किसी भी दिसांत वाक्य को इनपुट कर सकता है, और मॉडल उसे समझ लेगा और उस दिसांत में उत्तर देगा, जो मानव-मशीन इंटरएक्शन की प्राकृतिकता और लच्छकता को बढ़ाता है।
  9. निर्दिष्ट स्रोत कोड, शोध और विकास को बढ़ावा देने के लिए
  10. यह दर्ज किया जाता है कि मिंग-ओम्नी वह पहला मॉडल है जो GPT-4o के साथ मोडल समर्थन में जोड़ने वाला सार्वजनिक कोड है। Inclusion AI और Ant Group ने सभी कोड और मॉडल वजनों को निर्दिष्ट किया है, जिसका उद्देश्य समुदाय के शोध और विकास को बढ़ावा देना है और मल्टीमोडल स्मार्ट तकनीक के निरंतर प्रगति को प्रोत्साहित करना है।
  11. मिंग-ओम्नी के रिलीज़ से मल्टीमोडल स्मार्ट क्षेत्र में नई ऊर्जा लाई गई है और विभिन्न अनुप्रयोगों के लिए अधिक संभावितता प्रदान की है। तकनीक की निरंतर विकास के साथ, मिंग-ओम्नी के भविष्य में स्मार्ट इंटरैक्शन में बड़ी भूमिका निभाने की आशा है।
  12. परियोजना: https://lucaria-academy.github.io/Ming-Omni/