AI समाचार

वैश्विक AI नवाचार का कोई भी क्षण न चूकें

AI दैनिक

दैनिक तीन मिनट का AI उद्योग रुझान

AI समयरेखा

AI उद्योग मील के पत्थर

अल हार्डवेयर

सभी ऐ हार्डवेयर उत्पादों की सूची देता है.

AI मुद्रीकरण गाइड

नवीनतम मामले

AI मुद्रीकरण मामला साझा करना

छवि संग्रह

AI छवि निर्माण मुद्रीकरण मामले

वीडियो संग्रह

AI वीडियो निर्माण मुद्रीकरण मामले

ऑडियो संग्रह

AI ऑडियो निर्माण मुद्रीकरण मामले

सामग्री संग्रह

AI सामग्री लेखन मुद्रीकरण मामले

AI ट्यूटोरियल

नवीनतम ट्यूटोरियल

नवीनतम AI ट्यूटोरियल का मुफ्त साझाकरण

AI उत्पाद रैंकिंग

AI वेबसाइटों की कुल विज़िट रैंकिंग दिखाता है

AI ट्रैफ़िक वृद्धि रैंकिंग

ट्रैफ़िक द्वारा सबसे तेज़ी से बढ़ती AI वेबसाइटों को ट्रैक करें

AI ट्रैफ़िक गिरावट रैंकिंग

महत्वपूर्ण ट्रैफ़िक गिरावट वाली AI वेबसाइटों पर ध्यान दें

AI साप्ताहिक रैंकिंग

AI वेबसाइटों की साप्ताहिक विज़िट रैंकिंग दिखाता है

AI ओपन सोर्स प्रोजेक्ट लाइब्रेरी

अवलोकन

GitHub लोकप्रिय AI ओपन सोर्स प्रोजेक्ट का अवलोकन

उत्पाद लाइब्रेरी टूल नेविगेशन

मूनशॉट एआई ने किमी-ऑडियो जारी किया: ओपन-सोर्स ऑडियो बेस मॉडल ने नया मानक स्थापित किया

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Apr 27, 2025

हाल ही में, मूनशॉट एआई ने आधिकारिक तौर पर किमी-ऑडियो लॉन्च करने की घोषणा की, जो एक नया ओपन-सोर्स ऑडियो बेसिक मॉडल है, जिसका उद्देश्य ऑडियो समझ, पीढ़ी और इंटरैक्शन के क्षेत्र में तकनीकी प्रगति को बढ़ावा देना है। इस लॉन्च ने वैश्विक एआई समुदाय का व्यापक ध्यान आकर्षित किया है, जिसे मल्टी-मॉडल एआई विकास का एक महत्वपूर्ण मील का पत्थर माना जाता है।

यहाँ किमी-ऑडियो की मुख्य विशेषताओं, प्रदर्शन और उद्योग पर पड़ने वाले प्रभाव की एक व्यापक रिपोर्ट दी गई है।

क्रांतिकारी विशेषताएँ: सर्व-उद्देशीय ऑडियो प्रसंस्करण क्षमता

किमी-ऑडियो-7बी-इंस्ट्रक्ट क्वेन2.5-7बी आर्किटेक्चर पर आधारित है, और व्हिस्पर तकनीक के साथ मिलकर, यह शक्तिशाली बहु-कार्यशीलता प्रदर्शित करता है। यह मॉडल कई ऑडियो-संबंधित कार्यों का समर्थन करता है, जिसमें शामिल हैं लेकिन सीमित नहीं हैं: स्पीच रिकॉग्निशन (एएसआर), ऑडियो क्यू एंड ए (एक्यूए), ऑडियो सबटाइटलिंग (एएसी), स्पीच इमोशन रिकॉग्निशन (एसईआर), साउंड इवेंट/सीन क्लासिफिकेशन (एसईसी/एएससी), टेक्स्ट-टू-स्पीच (टीटीएस), वॉयस कन्वर्ज़न (वीसी) और एंड-टू-एंड वॉयस डायलॉग।

किमी-ऑडियो एक अभिनव मिश्रित ऑडियो इनपुट तंत्र का उपयोग करता है, जो 12.5 हर्ट्ज की सैंपलिंग दर पर ऑडियो डेटा को संसाधित करता है, जिससे जटिल ऑडियो सिग्नल की समझने की क्षमता में उल्लेखनीय वृद्धि होती है।

डेटा और प्रशिक्षण: 1.3 बिलियन घंटे ऑडियो ने मजबूत आधार तैयार किया

किमी-ऑडियो का उत्कृष्ट प्रदर्शन इसके विशाल प्रशिक्षण डेटासेट के कारण है। आधिकारिक तौर पर खुलासा किया गया है कि इस मॉडल को 13 मिलियन से अधिक घंटों के विविध ऑडियो डेटा पर प्रशिक्षित किया गया है, जिसमें आवाज, संगीत, पर्यावरणीय ध्वनियाँ आदि कई प्रकार शामिल हैं। मूनशॉट एआई ने किमी-ऑडियो का प्रशिक्षण कोड, मॉडल वेट और मूल्यांकन टूलकिट भी ओपन-सोर्स किया है।

प्रदर्शन: उद्योग के मानकों को पार करना

किमी-ऑडियो ने कई बेंचमार्क परीक्षणों में अग्रणी प्रदर्शन दिखाया है, जो मौजूदा ओपन-सोर्स और कुछ क्लोज्ड-सोर्स मॉडल से आगे निकल गया है। स्पीच रिकॉग्निशन, इमोशन एनालिसिस और ऑडियो क्यू एंड ए जैसे कार्यों में इसका प्रदर्शन विशेष रूप से उत्कृष्ट है, जो इसकी शक्तिशाली सामान्यीकरण क्षमता को दर्शाता है। किमी-ऑडियो का ओपन-सोर्स मूल्यांकन टूलकिट उद्योग को एक मानकीकृत परीक्षण मंच प्रदान करता है।

उद्योग पर प्रभाव: मल्टी-मॉडल एआई के लोकतंत्रीकरण में तेजी लाना

एक ओपन-सोर्स मॉडल के रूप में, किमी-ऑडियो ने ऑडियो एआई तकनीक के उपयोग की बाधाओं को कम कर दिया है, जिससे डेवलपर्स, कंपनियों और शोधकर्ताओं को कम लागत पर नवीन अनुप्रयोगों का निर्माण करने में सक्षम बनाया गया है। किमी-ऑडियो का लॉन्च चीन के एआई उद्योग के तेजी से विकास के समय पर हुआ है, इसकी ओपन-सोर्स रणनीति ने वैश्विक एआई तकनीक के लोकतंत्रीकरण को और आगे बढ़ाया है, जिससे गैर-पश्चिमी देशों के डेवलपर्स को अधिक विकल्प मिले हैं।

किमी-ऑडियो के लॉन्च ने न केवल ऑडियो प्रोसेसिंग क्षेत्र में नई ऊर्जा का संचार किया है, बल्कि वैश्विक एआई पारिस्थितिकी तंत्र के लिए खुलेपन और सहयोग का एक आदर्श भी स्थापित किया है।

मूनशॉटएआई किमी-ऑडियो ऑडियो बेस मॉडल मल्टीमॉडल एआई

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

एआई दैनिक: किमी का नया ऑडियो बेस मॉडल किमी-ऑडियो; चरणबद्ध तारकीय ओपन-सोर्स इमेज एडिटिंग मॉडल स्टेप1X-एडिट; क्वार्क एआई सुपर बॉक्स लॉन्च, क्वार्क से फोटो पूछें

Apr 27, 2025

VLM-R1 ने विज़ुअल लैंग्वेज मॉडल के नए युग की अगुवाई की, मल्टीमॉडल एआई ने नई सफलता प्राप्त की

हाल ही में, VLM-R1 परियोजना की सफल शुरुआत ने इस क्षेत्र में नई आशा जगाई है। यह परियोजना DeepSeek टीम की R1 विधि का विज़ुअल लैंग्वेज मॉडल में सफल रूपांतरण है, जिसका अर्थ है कि एआई विज़ुअल सामग्री को समझने के लिए एक नए चरण में प्रवेश करेगा। VLM-R1 की प्रेरणा पिछले वर्ष DeepSeek द्वारा ओपन-सोर्स की गई R1 विधि से मिली, जो GRPO (जनरेटिव रिवार्ड प्रोसेसिंग ऑप्टिमाइजेशन) सुदृढीकरण का उपयोग करती है।

Feb 20, 2025

2.4k

माइक्रोसॉफ्ट टीम ने मल्टीमॉडल एआई मॉडल मैग्मा को लॉन्च किया: दृश्य, भाषा और कार्रवाई निर्णय क्षमताओं का एकीकरण

हाल ही में, माइक्रोसॉफ्ट रिसर्च टीम ने कई विश्वविद्यालयों के शोधकर्ताओं के साथ मिलकर 'मैग्मा' नामक एक मल्टीमॉडल एआई मॉडल लॉन्च किया है। इस मॉडल का डिज़ाइन छवियाँ, पाठ और वीडियो जैसे विभिन्न डेटा प्रकारों को संसाधित और एकत्रित करने के लिए किया गया है, ताकि डिजिटल और भौतिक वातावरण में जटिल कार्यों को निष्पादित किया जा सके। तकनीक में निरंतर प्रगति के साथ, मल्टीमॉडल एआई एजेंटों का व्यापक रूप से रोबोटिक्स, वर्चुअल सहायकों और उपयोगकर्ता इंटरफ़ेस स्वचालन जैसे क्षेत्रों में उपयोग किया जा रहा है। पहले के एआई सिस्टम आमतौर पर दृष्टि-भाषा समझ या रोबोट संचालन पर केंद्रित होते थे, इन दोनों को एकीकृत करना कठिन होता था।

Feb 20, 2025

1.9k

झू शिअओहू ने चंद्र की अंधेरी पक्ष और चक्र स्मार्ट के शेयरधारक के निर्णय विवाद पर पदस्थापना की

5 दिसंबर को, जिंदांगजियांग वेंचर कैपिटल के मुख्य भागीदार झू शिअओहू ने चंद्र की अंधेरी पक्ष के संस्थापक यांग झिलिन और सह-संस्थापक और CTO झांग यू ताओ के खिलाफ चक्र स्मार्ट के कुछ निवेशकों द्वारा हांगकांग में उठाए गए पदस्थापन मामले पर प्रतिक्रिया दी। उन्होंने बताया कि चंद्र का अंधेरा पक्ष मूलतः चक्र स्मार्ट द्वारा दो साल तक विकसित परियोजना थी, और अभी तक चक्र स्मार्ट के शेयरधारकों द्वारा औपचारिक निर्णय नहीं लिया गया है। झू शिअओहू ने स्पष्ट किया कि यह विवाद केवल माफी पत्र का मामला नहीं है, बल्कि बोर्ड के निर्णय में देरी और हितों के संघर्ष से भी संबंधित है। ज्ञात हुआ है कि चंद्र का अंधेरा पक्ष (मूनशॉट एआई) 20 से ...

Dec 5, 2024

1.8k

चैलेंज ChatGPT संस्करण हर: घरेलू खिलाड़ियों ने मल्टीमॉडल एआई मानवकार इंटरैक्शन क्षेत्र में भी अपना स्थान बना लिया है

दूसरी MER24 चुनौती प्रतिस्पर्धा ने वास्तविक मानव-मशीन इंटरैक्शन परिदृश्यों में एआई द्वारा भावनात्मक पहचान अनुप्रयोग पर ध्यान केंद्रित किया, जिससे विश्व प्रसिद्ध विद्वानों की भागीदारी को आकर्षित किया। Soul App की वॉयस तकनीकी टीम अत्यधिक चुनौतीपूर्ण सेमी ट्रैक में उत्कृष्टता के साथ पहले स्थान पर आई। इस टीम की सफलता मल्टीमॉडल डेटा समझ, भावनात्मक पहचान अल्गोरिदम, मॉडल अनुकूलन और प्रभावी सहयोग में नवाचार का परिणाम है। डेटा की कमी की चुनौतियों का सामना करते हुए, Soul टीम ने संवर्धित अर्ध-निगरानी सीखने की तकनीक, पूर्व-प्रशिक्षित मॉडल और प्रभावी विशेषता समेकन विधियों का उपयोग करके भावनात्मक पहचान की सटीकता में सुधार किया।

Jul 31, 2024

2.4k

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT