अगस्त 2024 में, इनफोसिस ने एस्ट्रॉलॉक स्पार्क एक्सप्रेस अत्यधिक मानवीय परिचालन तकनीक के साथ आधिकारिक रूप से लॉन्च किया। एंड-टू-एंड ऑडियो मॉडलिंग और बहुआयामी भावना डिस्कंप्लिंग ट्रेनिंग के माध्यम से, यह उत्तर की गति, भावना संवेदनशीलता, और ऑडियो नियंत्रण व्यक्ति के तीन मुख्य अभियान के अवलोकन में अपनाई गई है। इस तकनीक को उपयोगकर्ता के ऑडियो में भावना घटनाओं की सटीक जांच करने के लिए बनाया गया है, वास्तविक समय में अनुकूलित उत्तर देने के लिए उपयुक्त शैली के साथ, और बोलने की गति, ध्वनि शैली, भूमिका व्यक्तित्व के डायनामिक नियंत्रण का समर्थन करता है, जो ऑडियो अंतरक्रिया के "कार्यक्षमता" से "भावना संबंध" की लंबी छलांग तक ले जाता है।
वर्तमान में, अत्यधिक मानवीय परिचालन API आधिकारिक रूप से इनफोसिस ओपन प्लेटफॉर्म पर लॉन्च किया गया है, जिसका विकासकर्ता निम्न लागत पर तकनीक क्षमता का उपयोग कर सकते हैं। खेल क्षेत्र में, NPC खिलाड़ी के भावना के आधार पर बातचीत रणनीति के साथ अनुकूलित कर सकते हैं; शैक्षिक वातावरण में, AI मुख्य बातचीत शिक्षक के वास्तविक प्रतिक्रिया के अनुकरण कर सकते हैं; पर्यटन और सांस्कृतिक क्षेत्र में "डिजिटल गाइड" उत्पन्न हो रहे हैं, जो भूमिका निभाने के माध्यम से पर्यटकों के साथ गहरे अंतरक्रिया करते हैं। एक आकर्षण के परीक्षण में बताया गया है कि इस तकनीक के साथ गाइड AI ने आगंतुकों के ठहराव के समय में 40% वृद्धि और द्वितीय खरीद प्रतिशत में 25% वृद्धि देखी गई।
पारंपरिक ऑडियो अंतरक्रिया प्रणाली "ऑडियो आईडी - बड़ा मॉडल प्रसंस्करण - ऑडियो सिंथेसिस" के श्रृंखला व्यवस्था का उपयोग करते हैं, जिसके कारण औसत प्रतिक्रिया समय 3 सेकंड से अधिक होता है, और भावना प्रसार टेक्स्ट सामग्री पर निर्भर करता है, जो ऑडियो में टोन, ताल आदि के साथ अतिरिक्त भाषा सूचना को पकड़ने में कठिनाई का कारण बनता है। स्पार्क एक्सप्रेस अत्यधिक मानवीय परिचालन तकनीक एक एकीकृत न्यूरल नेटवर्क फ्रेमवर्क का उपयोग करती है, जो ऑडियो से ऑडियो के एंड-टू-एंड मॉडलिंग को सीधे प्राप्त करती है: ऑडियो सिग्नल के बाद ऑडियो कोडर द्वारा विशेषताएं निकाली जाती हैं, जो टेक्स्ट सामग्री अभिव्यक्ति के साथ जुड़ती हैं, फिर बहुमाध्यमिक बड़ा मॉडल आउटपुट अभिव्यक्ति की भविष्यवाणी करता है, और अंत में ऑडियो डीकोडर के माध्यम से भावना प्राकृतिक, ताल शुद्ध संश्लेषित ऑडियो उत्पन्न करता है। यह नवाचार अंतरक्रिया देरी को 0.5 सेकंड के भीतर सीमित करता है, और प्रतिक्रिया प्रारूप "आप मुझसे पूछते हैं, मैं आपको जवाब देता हूं" से "वास्तविक समय बातचीत" तक बढ़ा देता है।
वास्तविक भावना संवेदनशीलता के लिए, तकनीकी टीम ने बहुआयामी ऑडियो गुण अलग करने वाले प्रतिनिधित्व प्रणाली के निर्माण किया, जो सामग्री, भावना, भाषा, ध्वनि, लय आदि के तत्वों को अलग-अलग ट्रेनिंग करता है। तुलना शिक्षा और मास्क पूर्वानुमान के माध्यम से, सिस्टम ऑडियो में खुशी, रोष, चिंता आदि भावना की सटीक जांच कर सकता है और स्वचालित रूप से प्रतिक्रिया रणनीति का अनुकूलन कर सकता है। उदाहरण के लिए, जब उपयोगकर्ता रास्ता पूछते हैं, तो AI धीमी शैली में तेजी से मार्ग योजना बनाता है; जब उपयोगकर्ता रोचक बात साझा करता है, तो AI आरामदायक शैली में विषय का विस्तार करता है। इसके अलावा, विकासकर्ता एपीआई के माध्यम से AI भूमिका व्यक्तित्व के अनुकूलन कर सकते हैं, जिससे विशिष्ट मूल्य, भाषा शैली और यहां तक कि प्रसिद्ध व्यक्ति के ध्वनि आवाज के अनुकरण के साथ अंतरक्रिया कर सकते हैं।
अनुप्रयोग के प्रवेश के स्तर को कम करने के लिए, इनफोसिस ने एक चरणबद्ध मूल्य नीति पेश की: एपीआई कॉल की लागत 0.1 रुपये प्रति मिनट तक होती है, और व्यवसाय उपयोगकर्ता ऑथेंटिकेशन के बाद 3 महीने, 10 घंटे मुफ्त परीक्षण अवधि प्राप्त कर सकते हैं। पारंपरिक ऑडियो अंतरक्रिया प्रणाली के विपरीत, जिसमें ऑडियो आईडी, सिंथेसिस, NLP आदि मॉड्यूल के अलग-अलग खरीद की आवश्यकता होती है, स्पार्क एक्सप्रेस अत्यधिक मानवीय तकनीक ने समग्र लागत को 60% से अधिक कम कर दिया है।