HuggingFace के शोधकर्ताओं ने हाल ही में संसाधनों की सीमित स्थिति में बड़े पूर्व-प्रशिक्षित भाषण पहचान मॉडल को तैनात करने की समस्या का समाधान किया है। एक विशाल ओपन-सोर्स डेटा सेट बनाने के माध्यम से, और छद्म लेबलिंग विधि का उपयोग करके, Whisper मॉडल के छोटे संस्करण, जिसे Distil-Whisper कहा जाता है, को विकसित किया गया। यह मॉडल चुनौतीपूर्ण ध्वनिक परिस्थितियों में मूल मॉडल की लचीलापन को बनाए रखता है, जबकि लंबे ऑडियो में भ्रमित करने वाली गलतियों को भी हल करता है। शोध ने बड़े पैमाने पर छद्म लेबलिंग विधियों को पेश किया, जो नई भाषण डेटा ज्ञान निष्कर्षण विधियों की पेशकश करता है और मॉडल तैनाती की समस्याओं को हल करता है। Whisper एक बड़े पूर्व-प्रशिक्षित ASR मॉडल के रूप में विभिन्न डेटा सेट पर उत्कृष्ट प्रदर्शन करता है, जबकि Distil-Whisper ने शून्य नमूना परिदृश्यों में 1% से कम WER हासिल किया है, जिससे भाषण पहचान मॉडल तैनाती की समस्याओं का नया समाधान मिलता है।
HuggingFace के शोधकर्ताओं ने नवीनतम वॉयस रिकग्निशन मॉडल परिनियोजन समस्या का समाधान किया

站长之家
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।