- जोरी, जोरीविप्री मोडल ने CoGenAV जारी किया है, जो ध्वनि पहचान प्रौद्योगिकी में ध्वनि-छवि समय के साथ संगति के अवधारणा पर काम करके शोर गुफ़्फ़ा के परिणामों की समस्या को प्रभावी रूप से हल करता है।
- प्रार्ग ध्वनि पहचान के तरीके में शोर वाले पर्यावरण में अच्छा प्रदर्शन नहीं होता है, लेकिन CoGenAV ने अलग-अलग पथ चुना है और audio-visual-text के बीच की समयसंगत समझौता सीखने के माध्यम से एक और प्रबल और सामान्य ध्वनि प्रतिनिधि ढांचा बनाया है, जो कई Speech-Centric कार्यों को बेहतर ढंग से सुधारता है। इसमें VSR/AVSR (ध्वनि पहचान कार्य), AVSS/AVSE (ध्वनि सुधार कार्य) और ASD (ध्वनि-विभाजन कार्य) शामिल हैं।
- जोरी के टेक्निकल रियलाइजेशन में "तुलना-उत्पन्न-समानता" स्ट्रेटेजी का उपयोग किया जाता है। विशेषता निकालने के चरण में, मॉडल रिस्नेट3डी सीएनएन का उपयोग करता है जो वीडियो में बोलते हुए व्यक्ति के चेहरे की गतियों को विश्लेषित करता है और ध्वनि और मुंह की गति के बीच डायनेमिक संबंधों को पकड़ता है, इसके साथ ही ट्रांसफार्मर एन्कोडर का उपयोग करके ध्वनि में ध्वनि सूचना को निकालता है और ध्वनि-वीडियो विशेषताओं को सटीक रूप से सामान्य करता है। तुलना-उत्पन्न-समानता ट्रेनिंग दोनों तरीकों, तुलना समानता और उत्पन्न समानता के माध्यम से मॉडल की समझ को बढ़ाता है। तुलना समानता में Seq2Seq Contrastive Learning का उपयोग किया जाता है जो ध्वनि और वीडियो विशेषताओं के बीच संबंध को मजबूत करता है और ReLU एक्टिवेशन फंक्शन का उपयोग गड़बड़ फ़्रेम को फ़िल्टर करने के लिए किया जाता है; उत्पन्न समानता में पूर्व-प्रशिक्षित ASR मॉडल का उपयोग करता है जो ध्वनि-वीडियो विशेषताओं को उनकी ऑटोनॉमिक-पाठ सूचना से सामान्य करता है और एक हल्का अनुकूलन ब्लॉक डिज़ाइन करता है जो अंतर्निहित समाधान की कुशलता में सुधार करता है।
- इन नवाचार तकनीकों के द्वारा, CoGenAV कई बेसलाइन डेटासेट पर अग्रगामी परिणाम प्राप्त करता है। ध्वनि पहचान (VSR) कार्य में, केवल 223 घंटे चेहरे की गति वाली वीडियो के साथ प्रशिक्षण किया जाता है, लॉर्स2 डेटासेट पर 20.5% शब्दों की त्रुटि दर (WER) प्राप्त होती है, जो एक साधारण मॉडल के साथ हजारों घंटे डेटा का प्रयोग करने पर भी बराबर प्रदर्शन करता है। AVSR कार्य में, Whisper मेडियम मॉडल के साथ संयोजित करके लॉर्स2 डेटासेट पर 1.27% WER प्राप्त होता है, जो वर्तमान सर्वश्रेष्ठ (SOTA) रिकॉर्ड को तोड़ता है, 0dB शोर के पर्यावरण में प्रदर्शन 80% से अधिक सुधार हुआ है, जो पूरी तरह से प्रायोजित ध्वनि मॉडल से बेहतर है। AVSE/AVSS कार्य में, ध्वनि सुधार और विभाजन में, LRS2 डेटासेट में SDRi मापदंड 16.0dB प्राप्त होता है, AvHuBERT से 1.6dB, AvSepFormer से 0.3dB अधिक है; सुधार कार्य में, SDRi मापदंड 9.0dB है, AvHuBERT से 1.6dB अधिक है। ASD कार्य में, Talkies डेटासेट पर माध्य सटीकता (mAP) 96.3% प्राप्त होती है, जो वर्तमान तकनीकों से अधिक है।
- CoGenAV को मुख्यधारा ध्वनि पहचान मॉडलों, जैसे Whisper में सीधे जोड़ा जा सकता है, किसी भी संशोधन या बाहरी प्रशिक्षण के बिना विजुअल ध्वनि पहचान कार्य करता है, जो इसके लिए डिप्लॉइमेंट चैलेंज को कम करता है। इससे उसकी शोर-सहिष्णुता की क्षमता बढ़ती है, और प्रशिक्षण लागत को काफी कम करती है, जिससे मॉडल की उपयोगिता और विस्तारप्रस्तूति क्षमता में वृद्धि होती है। वर्तमान में, CoGenAV के संबंधित कोड और मॉडल GitHub, arXiv, HuggingFace, ModelScope जैसे प्लेटफ़ॉर्मों पर खोले गए हैं, जिन्हें शोधकर्ताओं और विकसिताओं का उपयोग कर सकते हैं।
- GitHub: https://github.com/HumanMLLM/CoGenAV
- arXiv: https://arxiv.org/pdf/2505.03186
- HuggingFace: https://huggingface.co/detao/CoGenAV
- ModelScope: https://modelscope.cn/models/iic/cogenav
टोंगी ने CoGenAV मल्टीमोडल ध्वनि प्रतिनिधित्व मॉडल रिलीज़ किया, जो ध्वनि-चित्र समयरहितता प्रतिभागिता कर सकता है

AIbase基地
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।