टिक टॉक सीड टीम ने अपने नए विकास परिणाम - सीड लाइव इंटरप्रेट 2.0 एंड-टू-एंड लाइव अनुवाद मॉडल को आधिकारिक रूप से जारी किया। इस मॉडल के जारी होने से मशीन लाइव अनुवाद प्रौद्योगिकी में एक महत्वपूर्ण अंतर आया है, जिसकी अनुवाद सटीकता विशेषज्ञ लाइव अनुवादकों के स्तर तक पहुंच गई है, और देरी बहुत कम है, केवल 3 सेकंड, और इसमें वास्तविक ध्वनि पुनर्निर्माण क्षमता भी है, जो बोलने वाले के ध्वनि टोन के साथ अनुवाद की ध्वनि उत्पन्न कर सकता है, जिससे भाषा के बीच संवाद की प्राकृतिकता और सुलभता में बहुत वृद्धि हुई है।

लाइव अनुवाद को हमेशा अनुवाद के क्षेत्र में शिखर क्षमता माना गया है, जिसमें अनुवादक को बहुत कम समय में भाषा परिवर्तन करना होता है, सुनते हुए बोलते हुए, जो अनुवाद प्रौद्योगिकी अनुसंधानकर्ताओं के लिए बहुत चुनौतीपूर्ण होता है। सीड लाइव इंटरप्रेट 2.0 के आगमन ने चीनी-अंग्रेजी लाइव अनुवाद गुणवत्ता में उद्योग में शीर्ष स्तर (SOTA) तक पहुंचा है, और ध्वनि देरी के बहुत कम स्तर को प्राप्त किया है, जिससे लाइव अनुवाद के क्षेत्र में नए तकनीकी मानक लाया गया है।

सीड लाइव इंटरप्रेट 2.0 पूर्ण डुअल-पैथ एंड-टू-एंड ध्वनि ज्ञान उत्पादन ढांचे पर आधारित है, जो चीनी-अंग्रेजी परस्पर अनुवाद समर्थन करता है, और वास्तविक समय में बहुत ध्वनि इनपुट का संसाधन कर सकता है, मानव लाइव अनुवादकों की तरह बहुत कम देरी के साथ "सुनते हुए बोलते हुए" कर सकता है, एक ओर स्रोत भाषा ध्वनि इनपुट स्वीकार करता है, दूसरी ओर लक्ष्य भाषा के अनुवाद ध्वनि सीधे उत्पन्न करता है। इसके अलावा, मॉडल शून्य-उदाहरण ध्वनि पुनर्निर्माण समर्थन करता है, जिसके लिए ध्वनि नमूना पूर्व में संग्रहित करने की आवश्यकता नहीं होती, केवल वास्तविक संवाद द्वारा "मूल ध्वनि" ध्वनि अनुवाद को संश्लेषित किया जा सकता है, जिससे संवाद और अधिक सुलभ और प्राकृतिक हो जाता है।

微信截图_20250724134449.png

परीक्षण में, सीड लाइव इंटरप्रेट 2.0 अपनी शक्ति को दिखाता है। 40 सेकंड के बड़े चीनी वक्तव्य के लिए, मॉडल ध्वनि देरी के साथ एक ही ध्वनि टोन के साथ अंग्रेजी अनुवाद बहुत सुलभ रूप से उत्पन्न कर सकता है। इसके अलावा, यह ध्वनि के तेजी से अधिकार कर सकता है, चाहे वह "जी वू जी" में पिग बाजी या "होंग लोंग डियू" में लिन डाईयू हो, यहां तक कि अगर वे भूत में कभी भी उस किरदार की ध्वनि नहीं सुने गए हों, तो भी वास्तविक समय अंतरक्रिया के माध्यम से स्थानीय प्रदर्शन कर सकते हैं।

पारंपरिक मशीन लाइव अनुवाद प्रणाली की तुलना में, सीड लाइव इंटरप्रेट 2.0 विभिन्न पहलुओं में उल्लेखनीय लाभ दिखाता है। पहले, यह मानव लाइव अनुवादक के समान अनुवाद सटीकता के साथ आता है, जो ध्वनि समझ क्षमता के कारण अनुवाद की सटीकता सुनिश्चित करता है, बहुत जटिल परिस्थितियों जैसे बहुत लोगों के सम्मेलन में अंग्रेजी-चीनी द्विदिश अनुवाद सटीकता 70% से अधिक है, एक व्यक्ति भाषण अनुवाद सटीकता 80% से अधिक है, जो वास्तविक विशेषज्ञ लाइव अनुवादक के स्तर तक पहुंच गई है। दूसरे, इसके बहुत कम देरी वाली "सुनते हुए बोलते हुए" क्षमता पूर्ण डुअल-पैथ ध्वनि समझ उत्पादन फ्रेमवर्क का उपयोग करती है, जिसके कारण अनुवाद देरी केवल 2-3 सेकंड तक घट जाती है, पारंपरिक मशीन लाइव अनुवाद प्रणाली की तुलना में 60% से अधिक कम हो जाती है, जिससे वास्तविक "सुनते हुए बोलते हुए" अनुवाद संभव हो जाता है। इसके अलावा, शून्य-उदाहरण ध्वनि पुनर्निर्माण क्षमता मॉडल को बोलने वाले के ध्वनि विशेषताओं के साथ "बोलने" की अनुमति देती है, जिससे संवाद की गहराई और आकर्षकता में वृद्धि होती है। अंत में, मॉडल अनुवाद गुणवत्ता, देरी और ध्वनि उत्पादन गति के बीच बुद्धिमान ताल में संतुलन बनाने में सक्षम है, ध्वनि स्पष्टता, सुलभता, जटिलता के आधार पर उत्पादन गति को समायोजित करता है, और विभिन्न भाषा विशेषताओं के अनुकूल होता है, भले ही लंबी जानकारी हो, तो भी अनुवाद ध्वनि गति की प्राकृतिकता और सुलभता बनी रहती है।