हाल ही में, पर्सोना इंजन (व्यक्तित्व इंजन) परियोजना आधिकारिक तौर पर ओपन सोर्स हो गई है, जो अपने बड़े भाषा मॉडल (LLM), Live2D, स्वचालित वाक् पहचान (ASR), टेक्स्ट-टू-स्पीच (TTS) और रीयल-टाइम वॉयस क्लोनिंग (RVC) जैसी अत्याधुनिक तकनीकों के मिश्रण की शक्तिशाली क्षमताओं के साथ, AI और आभासी सामग्री निर्माण के क्षेत्र में व्यापक ध्यान आकर्षित कर रही है। AIbase के अनुसार, यह परियोजना आभासी पात्रों को प्राकृतिक बातचीत और गतिशील भावों की क्षमता प्रदान करके, आभासी पात्रों के साथ वास्तविक समय में बातचीत को सक्षम बनाती है, जो विशेष रूप से VTubing, लाइव स्ट्रीमिंग और आभासी सहायक परिदृश्यों के लिए उपयुक्त है। यह परियोजना GitHub पर लॉन्च की गई है, जो AI-संचालित आभासी इंटरैक्शन तकनीक के एक और मील के पत्थर का प्रतीक है।

मेटा वर्स विज्ञान कथा साइबरपंक पेंटिंग (3) बड़ा मॉडल

चित्र स्रोत टिप्पणी: यह चित्र AI द्वारा बनाया गया है, चित्र अधिकार सेवा प्रदाता Midjourney है।

मुख्य कार्य: इमर्सिव इंटरैक्शन को प्राप्त करने के लिए कई तकनीकों का संयोजन

पर्सोना इंजन कई AI तकनीकों को एकीकृत करके आभासी पात्रों को अत्यधिक यथार्थवादी इंटरैक्शन क्षमता प्रदान करता है। AIbase ने इसके मुख्य आकर्षणों का सारांश दिया है:

बड़ा भाषा मॉडल (LLM): OpenAI संगत LLM API पर आधारित, कस्टम व्यक्तित्व प्रोफ़ाइल (personality.txt) के साथ मिलकर, पात्रों में एक अनूठी भाषा शैली और व्यक्तित्व जोड़ता है, जो संदर्भ-जागरूक प्राकृतिक बातचीत का समर्थन करता है।

Live2D एनिमेशन: Live2D मॉडल (जैसे एरिया मॉडल) को लोड करने का समर्थन करता है, VBridger मानक के माध्यम से वॉयस-संचालित होंठ सिंक्रनाइज़ेशन को लागू करता है, और LLM आउटपुट भावना टैग के अनुसार संबंधित भाव और क्रियाएँ ट्रिगर करता है, जिससे दृश्य अभिव्यक्ति में वृद्धि होती है।

वॉयस इंटरैक्शन: व्हिस्पर ASR (व्हिस्पर.NET के माध्यम से) को एकीकृत करता है ताकि वॉयस पहचान की जा सके, सिलरो VAD के साथ वॉयस सेगमेंट का पता लगाने के लिए, रीयल-टाइम वॉयस इनपुट का समर्थन करता है; TTS मॉड्यूल प्राकृतिक आवाज उत्पन्न करता है, वैकल्पिक RVC मॉड्यूल लक्ष्य आवाज का रीयल-टाइम क्लोनिंग का समर्थन करता है।

OBS एकीकरण: Spout स्ट्रीम तकनीक के माध्यम से, पर्सोना इंजन एनिमेशन कैरेक्टर, उपशीर्षक और इंटरैक्टिव व्हील को सीधे OBS स्टूडियो में आउटपुट करता है, जो लाइव स्ट्रीमिंग और सामग्री निर्माण आवश्यकताओं के अनुकूल है।

AIbase ने देखा है कि परियोजना प्रदर्शन में वॉयस निर्देशों के प्रति चरित्र की सहज प्रतिक्रिया दिखाई गई है, निष्क्रिय एनिमेशन और भावना-संचालित गतिशील भावों ने इंटरैक्शन की वास्तविकता को और बढ़ाया है, जो आभासी स्ट्रीमर और सहायकों के लिए एक आदर्श समाधान है।

तकनीकी आर्किटेक्चर: मॉड्यूलर डिज़ाइन और कुशल एकीकरण

AIbase के विश्लेषण के अनुसार, पर्सोना इंजन एक मॉड्यूलर आर्किटेक्चर का उपयोग करता है, जो कुशल संचालन और लचीले विस्तार को सुनिश्चित करता है:

वॉयस प्रोसेसिंग: NAudio/PortAudio माइक्रोफ़ोन इनपुट का समर्थन करता है, सिलरो VAD वॉयस को विभाजित करता है, व्हिस्पर ASR ट्रांसक्रिप्शन पूरा करता है, और TTS और वैकल्पिक RVC मॉड्यूल व्यक्तिगत वॉयस आउटपुट उत्पन्न करते हैं।

एनिमेशन रेंडरिंग: Live2D मॉडल होंठ सिंक्रनाइज़ेशन और भावना एनिमेशन को चलाने के लिए ONNX का उपयोग करता है, निष्क्रिय और पलक झपकने वाले एनिमेशन चरित्र की प्राकृतिक स्थिति बनाए रखते हैं, Live2D एकीकरण गाइड देखें।

इंटरैक्शन प्रबंधन: UI विंडो रीयल-टाइम में TTS पैरामीटर (जैसे पिच, गति) को समायोजित करने और बातचीत के इतिहास को देखने का समर्थन करता है, वैकल्पिक दृश्य मॉड्यूल AI को स्क्रीन टेक्स्ट "पढ़ने" की अनुमति देता है।

स्ट्रीम आउटपुट: Spout स्ट्रीम दृश्य तत्वों (चरित्र, उपशीर्षक, व्हील) और ऑडियो को अलग से OBS या अन्य संगत सॉफ़्टवेयर को भेजता है, विंडो कैप्चर की आवश्यकता नहीं है।

यह परियोजना appsettings.json के माध्यम से मुख्य कॉन्फ़िगरेशन का उपयोग करती है, डेवलपर्स मॉडल और हार्डवेयर सेटिंग्स को अपनी आवश्यकताओं के अनुसार समायोजित कर सकते हैं। AIbase का मानना ​​है कि इसका मॉड्यूलर डिज़ाइन और विस्तृत दस्तावेज़ीकरण द्वितीयक विकास की बाधा को काफी कम करता है।

व्यापक अनुप्रयोग: लाइव स्ट्रीमिंग से लेकर आभासी सहायकों तक के विविध परिदृश्य

पर्सोना इंजन के ओपन सोर्स रिलीज़ ने कई क्षेत्रों में व्यापक अनुप्रयोग संभावनाएँ प्रदान की हैं। AIbase ने इसके मुख्य परिदृश्यों का सारांश दिया है:

VTubing और लाइव स्ट्रीमिंग: AI-संचालित आभासी स्ट्रीमर या इंटरैक्टिव पात्र बनाएँ, दर्शकों की आवाज या बुलेटिन का रीयल-टाइम जवाब दें, और लाइव स्ट्रीमिंग इमर्सिवनेस में सुधार करें।

आभासी सहायक: व्यक्तिगत डेस्कटॉप साथी बनाएँ, वॉयस इंटरैक्शन और कार्य सहायता का समर्थन करें, व्यक्तिगत दक्षता में सुधार या मनोरंजन के लिए उपयुक्त।

सामग्री निर्माण: गतिशील चरित्र एनिमेशन उत्पन्न करें, शॉर्ट वीडियो, शिक्षण सामग्री या ब्रांड प्रचार के लिए उपयोग करें, उत्पादन लागत को कम करें।

शिक्षा और अनुसंधान: AI इंटरैक्शन, वॉयस प्रोसेसिंग और एनिमेशन रेंडरिंग अनुसंधान के लिए ओपन सोर्स प्लेटफ़ॉर्म प्रदान करें, तकनीकी नवाचार को बढ़ावा दें।

समुदाय परीक्षण से पता चला है कि पर्सोना इंजन OBS एकीकरण और वॉयस इंटरैक्शन की सहजता में उत्कृष्ट प्रदर्शन करता है, जो विशेष रूप से स्वतंत्र रचनाकारों और छोटी लाइव स्ट्रीमिंग टीमों के लिए उपयुक्त है। AIbase ने देखा है कि इसके वैकल्पिक RVC मॉड्यूल ने व्यक्तिगत वॉयस अनुकूलन के लिए एक अनूठा लाभ प्रदान किया है।

प्रारंभिक मार्गदर्शिका: डेवलपर के अनुकूल, कम बाधा परिनियोजन

AIbase को पता चला है कि पर्सोना इंजन की हार्डवेयर आवश्यकताएँ अपेक्षाकृत लचीली हैं, जो RTX3060 या उच्च विन्यास वाले उपकरणों पर चलने का समर्थन करती हैं। डेवलपर्स निम्नलिखित चरणों के माध्यम से जल्दी से शुरू कर सकते हैं:

GitHub से पर्सोना इंजन रिपॉजिटरी क्लोन करें, NAudio, PortAudio आदि निर्भरताओं को स्थापित करें;

appsettings.json कॉन्फ़िगर करें, LLM API, Live2D मॉडल और ऑडियो डिवाइस निर्दिष्ट करें;

इंजन चलाएँ, OBS स्टूडियो से कनेक्ट करें, वॉयस या टेक्स्ट इनपुट शुरू करें।

यह परियोजना एरिया मॉडल और Live2D एकीकरण गाइड प्रदान करती है, जो कस्टम मॉडल और भावना ट्रिगर का समर्थन करती है। समुदाय ने शुरुआती लोगों को इंस्टॉलेशन और समस्या निवारण दस्तावेज़ का संदर्भ लेने का सुझाव दिया है ताकि वॉयस पहचान और स्ट्रीम आउटपुट प्रभाव को अनुकूलित किया जा सके। AIbase याद दिलाता है कि RVC मॉड्यूल को उच्च कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, प्रदर्शन आवश्यकताओं के अनुसार इसे अक्षम किया जा सकता है।

भविष्य की संभावनाएँ: ओपन सोर्स समुदाय द्वारा संचालित निरंतर विकास

पर्सोना इंजन के रिलीज़ ने न केवल AI और Live2D के संयोजन की नवीन क्षमता को प्रदर्शित किया है, बल्कि ओपन सोर्स मॉडल के माध्यम से समुदाय की गतिशीलता को भी बढ़ावा दिया है। AIbase ने देखा है कि डेवलपर्स बहु-भाषा समर्थन को बढ़ाने, कम-अंत उपकरणों के प्रदर्शन को अनुकूलित करने और दृश्य मॉड्यूल कार्यों का विस्तार करने पर चर्चा कर रहे हैं। समुदाय ने अधिक LLM (जैसे Grok3) और TTS मॉडल को एकीकृत करने का सुझाव दिया है, भविष्य में अधिक जटिल इंटरैक्शन परिदृश्यों का समर्थन किया जा सकता है, जैसे कि बहु-व्यक्ति बातचीत और रीयल-टाइम भावना विश्लेषण। AIbase का मानना ​​है कि MCP प्रोटोकॉल के प्रसार के साथ, पर्सोना इंजन आभासी सहायकों और लाइव स्ट्रीमिंग क्षेत्रों में एक मानक ढाँचा बन सकता है।