अली टॉन्गयी अपने साथ श्रृंखला तर्क के ऑडियो जनरेशन मॉडल ThinkSound का समर्थन करता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Jul 9, 2025

19.6k

हाल ही में, अली वॉइस एआई टीम ने दुनिया के पहले स्पेसियल ऑडियो जनरेशन मॉडल ThinkSound को ओपन सोर्स कर दिया, जो चेन-ऑफ-थॉट तकनीक के समर्थन से लिंक्ड रीजनिंग का समर्थन करता है। इस मॉडल ने पारंपरिक वीडियो से ऑडियो बनाने के तकनीक के छवि गतिशीलता के पक्ष में सीमाओं को अतिक्रमण करके उच्च गुणवत्ता वाले, मजबूत सिंक्रनाइज्ड स्पेसियल ऑडियो जनरेशन की ओर अग्रसर हो गया। यह अपनाना एआई ऑडियो तकनीक के "छवि पर ध्वनि के साथ" से "छवि के संरचनात्मक समझ" तक के कदम में महत्वपूर्ण उपलब्धि है।

पारंपरिक एंड-टू-एंड वीडियो से ऑडियो तकनीक आमतौर पर छवि विवरण और ध्वनि के समय और स्थान संबंध को अनदेखा कर देता है, जिसके कारण उत्पादित ऑडियो दृश्य घटनाओं से विचलित हो जाता है। ThinkSound ने पहली बार बहुमाध्यमिक बड़े भाषा मॉडल के साथ एकीकृत ऑडियो जनरेशन ढांचा जोड़ा, जो तीन चरणों की तार्किक प्रक्रिया के माध्यम से सटीक ऑडियो संश्लेषण करता है: प्रणाली सबसे पहले छवि की समग्र गति और स्थान अर्थ का विश्लेषण करता है, संरचनात्मक तार्किक श्रृंखला उत्पन्न करता है; फिर विशिष्ट वस्तु ध्वनि स्रोत क्षेत्र पर ध्यान केंद्रित करता है, अर्थ के साथ ध्वनि विशेषताओं को बढ़ाता है; अंत में उपयोगकर्ता के लिए प्राकृतिक भाषा निर्देश के माध्यम से वास्तविक समय में बातचीत संपादन समर्थन करता है, जैसे "पक्षी के बोलने के बाद पत्तियों के झरने के शब्द जोड़ें" या "पृष्ठभूमि शोर हटाएं"।

微信截图_20250709092743.png

मॉडल की संरचनात्मक तार्किक क्षमता के समर्थन के लिए, अनुसंधान टीम ने 2531.8 घंटे के उच्च गुणवत्ता नमूनों के साथ AudioCoT बहुमाध्यमिक डेटा सेट का निर्माण किया, जिसमें VGGSound, AudioSet आदि स्रोतों से जीवन वाले ध्वनि जैसे जानवरों के बोलने, मशीन के चलने आदि शामिल हैं। डेटा सेट की गुणवत्ता के लिए बहुचरणीय स्वचालित फ़िल्टरिंग और मानव नमूना जांच के साथ विश्वसनीयता सुनिश्चित की गई है, और विशेष रूप से वस्तु-स्तरीय और निर्देश-स्तरीय नमूनों को डिज़ाइन किया गया है, जिससे मॉडल जटिल निर्देशों जैसे "ऊंट के बोलने के समय वायु शोर के बिना ऊंट के बोलने के अलग करें" के साथ काम कर सकता है।

परीक्षण डेटा के अनुसार, ThinkSound VGGSound परीक्षण सेट में मुख्य मापदंडों पर मुख्य विधि के लगभग 15% से अधिक बढ़ गया, और MovieGen Audio Bench पर बहुत बड़ा अंतर Meta के समान मॉडल से दिखाई दिया। अब, इस मॉडल के कोड और प्री-ट्रेन्ड भार गिटहब, हगिंगफेस और मोडलस्कोप समुदाय में ओपन सोर्स कर दिए गए हैं, जिससे डेवलपर्स मुफ्त में प्राप्त कर सकते हैं।

अली वॉइस एआई टीम ने बताया कि भविष्य में मॉडल के जटिल ध्वनिक वातावरण की समझ क्षमता में सुधार करने पर ध्यान केंद्रित करेगा और खेल विकास, वर्चुअल रियलिटी आदि अंतर्निहित परिदृश्य में विस्तार करेगा। यह तकनीक फिल्म ध्वनि एफेक्ट बनाने, ऑडियो बाद के संसाधन के लिए नए उपकरण प्रदान करते हुए, मनुष्य-मशीन अंतरक्रिया में ध्वनि अनुभव की सीमा को फिर से परिभाषित कर सकती है। उद्योग विशेषज्ञों ने टिप्पणी की कि ThinkSound के ओपन सोर्स होने से ऑडियो जनरेशन के क्षेत्र में तकनीकी समानता तेज होगी और रचनात्मक अर्थव्यवस्था के अधिक बुद्धिमान दिशा में विकास होगा।

ओपन सोर्स एड्रेस:

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

अली टॉन्गयी अपने साथ श्रृंखला तर्क के ऑडियो जनरेशन मॉडल ThinkSound का समर्थन करता है

AIbase基地

यह लेख AIbase दैनिक से है