खेल विकास की दुनिया में, बड़े मॉडल धीरे-धीरे एक不可替代的 "चिंतन समूह" के रूप में उभर रहे हैं, जो AI पात्रों के निर्माण से लेकर दृश्य निर्माण तक, लगभग सभी चीजों को कवर करते हैं।

हालांकि, उनकी क्षमताएँ अद्भुत हैं, खेल दृश्यों की समझ, छवि पहचान और सामग्री विवरण में सुधार की आवश्यकता है। इन समस्याओं को हल करने के लिए, कनाडा के अल्बर्टा में शोध टीम पीछे नहीं हट रही है, और एक विशेष रूप से खेल के लिए डिज़ाइन किया गया ओपन-सोर्स बड़ा मॉडल पेश किया है - VideoGameBunny (संक्षेप में "VGB")।

image.png

विशेषताएँ

- कई भाषाओं का समर्थन: विभिन्न भाषाओं को संभालने और उत्पन्न करने में सक्षम, अंतरराष्ट्रीय अनुप्रयोगों के लिए उपयुक्त।

- उच्च स्तर की अनुकूलनशीलता: विशिष्ट आवश्यकताओं के अनुसार मॉडल पैरामीटर और कॉन्फ़िगरेशन फ़ाइलों को समायोजित किया जा सकता है।

- शक्तिशाली पाठ निर्माण क्षमता: निरंतर और स्वाभाविक संवाद उत्पन्न करने में सक्षम, इसे खेलों और चैट बॉट्स में उत्कृष्ट प्रदर्शन करने की अनुमति देता है।

- ओपन-सोर्स और आसानी से पहुँचने योग्य: Hugging Face प्लेटफ़ॉर्म पर उपलब्ध, जिससे कोई भी आसानी से उपयोग और योगदान कर सकता है।

- विभिन्न विकास वातावरण के साथ संगत: Python जैसी लोकप्रिय प्रोग्रामिंग भाषाएँ, विभिन्न परियोजनाओं में एकीकृत करने में सहायक।

- समृद्ध मॉडल फ़ाइलें: विभिन्न प्रारूपों में मॉडल फ़ाइलें प्रदान करता है, उपयोगकर्ताओं को विभिन्न प्रशिक्षण और अनुप्रयोगों का समर्थन करता है।

- सक्रिय समुदाय समर्थन: उपयोगकर्ता समुदाय में सहायता और बातचीत के लिए खोजते हैं, तकनीकी साझा करने और सहयोग को बढ़ावा देते हैं।

प्रोजेक्ट का पता: https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main

VGB की क्षमता विशाल है, यह एक बुद्धिमान दृश्य AI सहायक की तरह है, जो खेल के वातावरण को समझ सकता है और तात्कालिक प्रतिक्रिया दे सकता है। उन ओपन-वर्ल्ड 3A खेलों में, यह खिलाड़ियों को महत्वपूर्ण वस्तुओं की पहचान करने या विभिन्न प्रश्नों का उत्तर देने में मदद कर सकता है, जिससे आप खेल की तकनीकों को तेजी से समझ सकते हैं, खेल की इंटरैक्टिविटी और इमर्सन को बढ़ाता है।

इससे भी बेहतर, VGB बड़ी संख्या में खेल छवियों का विश्लेषण कर सकता है, ग्राफ़िक रेंडरिंग त्रुटियों और भौतिक इंजन की असंगतियों का पता लगा सकता है, और डेवलपर्स के लिए बग और असामान्यताओं की जांच में सहायक बन सकता है।

उपयोग के दृश्य

- खेल संवाद प्रणाली: अधिक स्वाभाविक और बुद्धिमान NPC संवाद विकसित करने के लिए उपयोग किया जा सकता है, खिलाड़ियों की इमर्सन को बढ़ाने के लिए।

- शिक्षा अनुप्रयोग: शैक्षणिक सॉफ़्टवेयर के लिए इंटरएक्टिव सामग्री या अभ्यास प्रश्न उत्पन्न करने के लिए, अध्ययन दक्षता बढ़ाने के लिए।

- ग्राहक सेवा चैट बॉट: ऑनलाइन ग्राहक सेवा प्रणाली में उपयोग किया जाता है, वास्तविक समय में ग्राहक सहायता और उत्तर प्रदान करता है।

VGB का आधार Bunny मॉडल है, जो एक कुशल और कम-खपत वाला "अच्छा साथी" है। इसका डिज़ाइन प्रेरणा LLaVA के समान है, जो मल्टी-लेयर परसेप्ट्रॉन नेटवर्क के माध्यम से मजबूत प्री-ट्रेंडेड विज़ुअल मॉडल से दृश्य जानकारी को छवि टैग में परिवर्तित करता है, यह सुनिश्चित करता है कि भाषा मॉडल डेटा को कुशलता से संभाल सके। Bunny मॉडल अधिकतम 1152×1152 पिक्सल के छवि रिज़ॉल्यूशन का समर्थन करता है, जो खेल छवियों को संभालते समय विशेष रूप से महत्वपूर्ण है, क्योंकि खेल के दृश्य में छोटे UI आइकनों से लेकर विशाल खेल वस्तुओं तक विभिन्न दृश्य तत्व होते हैं। मल्टी-स्केल विशेषताओं की निकासी क्षमता, VGB को खेल सामग्री की समझ को एक नई ऊँचाई पर ले जाती है।

VGB को खेल की दृश्य सामग्री को बेहतर ढंग से समझने के लिए, शोध टीम ने भाषा मॉडल के रूप में Meta के ओपन-सोर्स LLama-3-8B का उपयोग किया, और SigLIP दृश्य एनकोडर और S2 पैकर्स को जोड़ा। यह संयोजन मॉडल को खेल में विभिन्न स्केल के दृश्य तत्वों को पकड़ने में सक्षम बनाता है, छोटे इंटरफ़ेस आइकनों से लेकर बड़े खेल वस्तुओं तक, समृद्ध संदर्भ जानकारी प्रदान करता है।

इसके अलावा, खेल छवियों के साथ मेल खाने वाले निर्देश डेटा उत्पन्न करने के लिए, शोधकर्ताओं ने कई उन्नत मॉडल का उपयोग किया, जिनमें Gemini-1.0-Pro-Vision, GPT-4V और GPT-4o शामिल हैं। इन मॉडलों ने विभिन्न प्रकार के निर्देश उत्पन्न किए, जैसे संक्षिप्त और विस्तृत शीर्षक, छवि से JSON विवरण और छवि आधारित प्रश्न और उत्तर, जो VGB को खिलाड़ियों के प्रश्नों और निर्देशों को बेहतर ढंग से समझने में मदद करते हैं।