हाल ही में, अली वॉइस एआई टीम ने दुनिया के पहले स्पेसियल ऑडियो जनरेशन मॉडल ThinkSound को ओपन सोर्स कर दिया, जो चेन-ऑफ-थॉट तकनीक के समर्थन से लिंक्ड रीजनिंग का समर्थन करता है। इस मॉडल ने पारंपरिक वीडियो से ऑडियो बनाने के तकनीक के छवि गतिशीलता के पक्ष में सीमाओं को अतिक्रमण करके उच्च गुणवत्ता वाले, मजबूत सिंक्रनाइज्ड स्पेसियल ऑडियो जनरेशन की ओर अग्रसर हो गया। यह अपनाना एआई ऑडियो तकनीक के "छवि पर ध्वनि के साथ" से "छवि के संरचनात्मक समझ" तक के कदम में महत्वपूर्ण उपलब्धि है।

पारंपरिक एंड-टू-एंड वीडियो से ऑडियो तकनीक आमतौर पर छवि विवरण और ध्वनि के समय और स्थान संबंध को अनदेखा कर देता है, जिसके कारण उत्पादित ऑडियो दृश्य घटनाओं से विचलित हो जाता है। ThinkSound ने पहली बार बहुमाध्यमिक बड़े भाषा मॉडल के साथ एकीकृत ऑडियो जनरेशन ढांचा जोड़ा, जो तीन चरणों की तार्किक प्रक्रिया के माध्यम से सटीक ऑडियो संश्लेषण करता है: प्रणाली सबसे पहले छवि की समग्र गति और स्थान अर्थ का विश्लेषण करता है, संरचनात्मक तार्किक श्रृंखला उत्पन्न करता है; फिर विशिष्ट वस्तु ध्वनि स्रोत क्षेत्र पर ध्यान केंद्रित करता है, अर्थ के साथ ध्वनि विशेषताओं को बढ़ाता है; अंत में उपयोगकर्ता के लिए प्राकृतिक भाषा निर्देश के माध्यम से वास्तविक समय में बातचीत संपादन समर्थन करता है, जैसे "पक्षी के बोलने के बाद पत्तियों के झरने के शब्द जोड़ें" या "पृष्ठभूमि शोर हटाएं"।

微信截图_20250709092743.png

मॉडल की संरचनात्मक तार्किक क्षमता के समर्थन के लिए, अनुसंधान टीम ने 2531.8 घंटे के उच्च गुणवत्ता नमूनों के साथ AudioCoT बहुमाध्यमिक डेटा सेट का निर्माण किया, जिसमें VGGSound, AudioSet आदि स्रोतों से जीवन वाले ध्वनि जैसे जानवरों के बोलने, मशीन के चलने आदि शामिल हैं। डेटा सेट की गुणवत्ता के लिए बहुचरणीय स्वचालित फ़िल्टरिंग और मानव नमूना जांच के साथ विश्वसनीयता सुनिश्चित की गई है, और विशेष रूप से वस्तु-स्तरीय और निर्देश-स्तरीय नमूनों को डिज़ाइन किया गया है, जिससे मॉडल जटिल निर्देशों जैसे "ऊंट के बोलने के समय वायु शोर के बिना ऊंट के बोलने के अलग करें" के साथ काम कर सकता है।

परीक्षण डेटा के अनुसार, ThinkSound VGGSound परीक्षण सेट में मुख्य मापदंडों पर मुख्य विधि के लगभग 15% से अधिक बढ़ गया, और MovieGen Audio Bench पर बहुत बड़ा अंतर Meta के समान मॉडल से दिखाई दिया। अब, इस मॉडल के कोड और प्री-ट्रेन्ड भार गिटहब, हगिंगफेस और मोडलस्कोप समुदाय में ओपन सोर्स कर दिए गए हैं, जिससे डेवलपर्स मुफ्त में प्राप्त कर सकते हैं।

अली वॉइस एआई टीम ने बताया कि भविष्य में मॉडल के जटिल ध्वनिक वातावरण की समझ क्षमता में सुधार करने पर ध्यान केंद्रित करेगा और खेल विकास, वर्चुअल रियलिटी आदि अंतर्निहित परिदृश्य में विस्तार करेगा। यह तकनीक फिल्म ध्वनि एफेक्ट बनाने, ऑडियो बाद के संसाधन के लिए नए उपकरण प्रदान करते हुए, मनुष्य-मशीन अंतरक्रिया में ध्वनि अनुभव की सीमा को फिर से परिभाषित कर सकती है। उद्योग विशेषज्ञों ने टिप्पणी की कि ThinkSound के ओपन सोर्स होने से ऑडियो जनरेशन के क्षेत्र में तकनीकी समानता तेज होगी और रचनात्मक अर्थव्यवस्था के अधिक बुद्धिमान दिशा में विकास होगा।

ओपन सोर्स एड्रेस:

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound