अली टोंगयी ने एक नई पूर्ण-एंड-टू-पूर्ण बोले गए शब्दों के मॉडल Fun-ASR का आधिकारिक रूप से लॉन्च किया है, जिसमें संदर्भ अवबोध और उच्च अक्षर सटीकता क्षमता को मजबूत किया गया है, घरेलू सुधार, बीमा आदि क्षेत्रों में बोले गए शब्दों की सटीकता 15% से अधिक बढ़ा दी गई है। परीक्षण के डेटा से पता चलता है कि बीमा क्षेत्र में सटीकता पिछले वर्जन की तुलना में 18% बढ़ गई है, घरेलू सुधार, पशुपालन आदि क्षेत्रों में वृद्धि 15%-20% है।
बड़े भाषा मॉडल द्वारा चलाए गए बोले गए शब्दों के एल्गोरिथ्म के रूप में, Fun-ASR अपने विकसित ध्वनि एल्गोरिथ्म और Qwen3 के संयोजित अनुकूलन तकनीक के साथ, अग्रणी मॉडल आर्किटेक्चर और पाठ माडल संरेखण तकनीक का उपयोग करता है, भाषा प्रसंस्करण लाभ बरकरार रखते हुए, RAG अन्वेषण बढ़ाओ समाधान के साथ एकीकृत करता है, जो 1000 से अधिक अनुकूलित गर्म शब्दों के आयात का समर्थन करता है। इस कार्यक्षमता के माध्यम से ध्वनि में क्षेत्र के गर्म शब्द, ऐतिहासिक दस्तावेज और संदर्भ रिकॉर्ड के साथ स्वचालित अनुकूलन किया जा सकता है, जो विशिष्ट परिस्थितियों में कीवर्ड पहचान प्रभाव को उल्लेखनीय रूप से बेहतर बनाता है।

बोले गए शब्दों के अंतर्निहित शोर विच्छेदन, भाषा भ्रम और उत्पादन भ्रम आदि के बारे में समस्याओं के लिए, विकास टीम ने उत्तम शिक्षण (RL) तकनीक के आविष्कार के माध्यम से एक नवाचार प्रविष्टि की है, जो स्थायी रूप से रणनीति के सुधार से अस्पष्टता कम करता है, और प्रणाली की स्थिरता और विश्वसनीयता वास्तविक रूप से सुधार हो गई है। ध्यान देने योग्य बात यह है कि मॉडल के चीनी भाषा, गुआंगडोंग भाषा, मिननान भाषा आदि के बोले गए शब्दों में अन्य उत्पादों की तुलना में बेहतर प्रदर्शन हुआ है, साथ ही दूर के ध्वनि ग्रहण, निकट के शोर अवमंदन आदि के जटिल ध्वनि वातावरण में अनुकूलन हो गया है, जो बैठक कक्ष, कार्य स्थल, सुपरमार्केट, बाहरी आदि में विविध परिस्थितियों को कवर करता है।
शिक्षा डेटा के संदर्भ में, Fun-ASR ऊपरी अरबों घंटों के ध्वनि डेटा पर निर्मित है, जिसमें इंटरनेट, तकनीक, पशुपालन, वाहन आदि के दस से अधिक क्षेत्रों के विशेषज्ञ शब्दावली के साथ गहरा एकीकरण हुआ है। इस डेटा फायदा के कारण इसके विशेष क्षेत्र में पहचान में उल्लेखनीय फायदा हुआ है, जैसे कि पशुपालन क्षेत्र में जानवरों के चिंतन और वातावरणीय शोर में महत्वपूर्ण आदेशों की सटीक पहचान हो सकती है।
अली टोंगयी तकनीकी टीम ने कहा कि Fun-ASR के विकास ने बोले गए शब्दों के तकनीकी से सामान्य स्थिति से विशेषज्ञता और स्थिति के गहरे प्रवेश को चिह्नित करता है। मॉडल के अधिक क्षेत्रों में लागू होने के साथ, इसके गतिशील गर्म शब्द अपडेट और बहुमाध्यमी अंतरक्रिया क्षमता आगे बोले गए अंतरक्रिया दक्षता के नवाचार को आगे बढ़ाएगी।





