एंट ग्रुप और inclusionAI ने मिलकर Ming-Omni पेश किया: पहला खोजने-मुफ्त मल्टीमोडल GPT-4o

हाल ही में, Inclusion AI और शीटज़ ग्रुप ने "मिंग-ओम्नी" नामक एक उन्नत मल्टीमोडल मॉडल का रिलीज़ किया है, जो स्मार्ट तकनीक के लिए एक नया परिवर्तन को निश्चित करता है। मिंग-ओम्नी कैमरा इमेज, टेक्स्ट, ऑडियो और वीडियो का प्रोसेसिंग कर सकता है और इससे विभिन्न अनुप्रयोगों के लिए मजबूत समर्थन प्रदान करता है। इसकी क्षमताएं बोली और छवि उत्पादन शामिल करती हैं और मल्टीमोडल इनपुट के फ्यूज़ करने की क्षमता भी है।
समग्र मल्टीमोडल प्रोसेसिंग क्षमता
मिंग-ओम्नी के डिज़ाइन में विशिष्ट एन्कोडर का उपयोग किया गया है जो विभिन्न मोडल के टोकेन्स (सिग्नल) को निकालता है, जिन्हें "लिंग" मॉड्यूल (अर्थात मिश्रित विशेषज्ञ आर्किटेक्चर, MoE) के साथ प्रोसेस किया जाता है, जिसमें नए प्रस्तावित मोडल-विशिष्ट रास्ते भी शामिल हैं। ऐसा बनाने से मिंग-ओम्नी कई प्रकार के टास्क को प्रोसेस करने और मल्टीमोडल इनपुट को फ्यूज़ करने में अधिक कुशल हो जाता है, बिना अतिरिक्त मॉडल, विशिष्ट कार्य के फाइनट्यूनिंग या संरचनात्मक रीकायड करने के।
वाणी और छवि उत्पादन का नया ढंग
पारंपरिक मल्टीमोडल मॉडलों की तुलना में, मिंग-ओम्नी का एक खास विशेषता यह है कि यह ऑडियो और छवि उत्पादन का समर्थन करता है। उनावरण ऑडियो डिकोडर के साथ इंटीग्रेट करके मिंग-ओम्नी नाटकीय और प्रवाहित वाणी का उत्पादन कर सकता है। इसके बारे में कहा जाता है कि इसका उपयोग किया गया है जो उच्च गुणवत्ता वाला छवि उत्पादन मॉडल "मिंग-लाइट-यूनी" जो छवि उत्पादन की परिशुद्धता को बढ़ाता है। इसके अलावा, यह मॉडल बातचीत के प्रसंस्करण, टेक्स्ट-टू-स्पीच ट्रांसफ़रमेंट और विभिन्न प्रकार के छवि संपादन का भी समर्थन करता है, जो इसके कई क्षेत्रों में उपयोग की क्षमता को साबित करता है।
प्रवाहित वाणी और टेक्स्ट ट्रांसफ़र
मिंग-ओम्नी की भाषा प्रोसेसिंग की क्षमता भी अग्रगण्य है। इसके पास दिसांत वाणी का समझ और वाणी क्लोनिंग की क्षमता है, जिससे इनपुट टेक्स्ट को विभिन्न दिसांत वाणी आउटपुट में बदला जा सकता है, जो इसकी बेहतरीन भाषा अनुकूलन क्षमता को दिखाता है। उदाहरण के लिए, उपयोगकर्ता किसी भी दिसांत वाक्य को इनपुट कर सकता है, और मॉडल उसे समझ लेगा और उस दिसांत में उत्तर देगा, जो मानव-मशीन इंटरएक्शन की प्राकृतिकता और लच्छकता को बढ़ाता है।
निर्दिष्ट स्रोत कोड, शोध और विकास को बढ़ावा देने के लिए
यह दर्ज किया जाता है कि मिंग-ओम्नी वह पहला मॉडल है जो GPT-4o के साथ मोडल समर्थन में जोड़ने वाला सार्वजनिक कोड है। Inclusion AI और Ant Group ने सभी कोड और मॉडल वजनों को निर्दिष्ट किया है, जिसका उद्देश्य समुदाय के शोध और विकास को बढ़ावा देना है और मल्टीमोडल स्मार्ट तकनीक के निरंतर प्रगति को प्रोत्साहित करना है।
मिंग-ओम्नी के रिलीज़ से मल्टीमोडल स्मार्ट क्षेत्र में नई ऊर्जा लाई गई है और विभिन्न अनुप्रयोगों के लिए अधिक संभावितता प्रदान की है। तकनीक की निरंतर विकास के साथ, मिंग-ओम्नी के भविष्य में स्मार्ट इंटरैक्शन में बड़ी भूमिका निभाने की आशा है।
परियोजना: https://lucaria-academy.github.io/Ming-Omni/

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services

AI Model Compatibility Checker

AI Deployment Calculator

एंट ग्रुप और inclusionAI ने मिलकर Ming-Omni पेश किया: पहला खोजने-मुफ्त मल्टीमोडल GPT-4o

AIbase基地

यह लेख AIbase दैनिक से है

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

एंट ग्रुप और inclusionAI ने मिलकर Ming-Omni पेश किया: पहला खोजने-मुफ्त मल्टीमोडल GPT-4o

AIbase基地

यह लेख AIbase दैनिक से है

GEO Services