टेनसेंट ने अपने नए विकसित इमेज-टू-वीडियो जनरेशन फ़्रेमवर्क - HunyuanVideo-I2V को ओपन सोर्स करने की घोषणा की है। यह मॉडल HunyuanVideo को सफलतापूर्वक ओपन सोर्स करने के बाद एक और महत्वपूर्ण प्रगति है, जिसका उद्देश्य ओपन सोर्स समुदाय के गहन अन्वेषण को बढ़ावा देना है।

QQ_1741250034750.png

HunyuanVideo-I2V उन्नत वीडियो जनरेशन तकनीक को जोड़ता है, जो स्थिर छवियों को जीवंत वीडियो सामग्री में बदल सकता है, जिससे क्रिएटर के लिए और अधिक संभावनाएँ खुलती हैं।

HunyuanVideo-I2V एक प्री-ट्रेन्ड मल्टीमॉडल बड़े भाषा मॉडल का उपयोग टेक्स्ट एन्कोडर के रूप में करता है, जो इनपुट इमेज के अर्थपूर्ण कंटेंट को समझने की मॉडल की क्षमता को उल्लेखनीय रूप से बढ़ाता है। इसका मतलब है कि उपयोगकर्ता द्वारा इनपुट की गई इमेज मॉडल द्वारा अर्थपूर्ण इमेज लेबल उत्पन्न कर सकती है, ये लेबल वीडियो के संभावित लेबल के साथ मिलकर अधिक व्यापक पूर्ण-ध्यान गणना को सक्षम करते हैं। इस तरह, सिस्टम इमेज और टेक्स्ट मोड के बीच सहयोग को अधिकतम कर सकता है, यह सुनिश्चित करता है कि स्थिर इमेज से उत्पन्न वीडियो कंटेंट अधिक सुसंगत और यथार्थवादी है।

जो उपयोगकर्ता वीडियो जनरेशन के लिए HunyuanVideo-I2V का उपयोग करना चाहते हैं, उनके लिए टेनसेंट ने विस्तृत इंस्टॉलेशन गाइड और उपयोग निर्देश प्रदान किए हैं। उपयोगकर्ताओं को कुछ हार्डवेयर आवश्यकताओं को पूरा करने की आवश्यकता है, अधिकतम वीडियो जनरेशन गुणवत्ता के लिए कम से कम 80GB VRAM वाले NVIDIA GPU का उपयोग करने की सलाह दी जाती है। इसके अलावा, सिस्टम 720P तक के रिज़ॉल्यूशन और 129 फ्रेम (लगभग 5 सेकंड) तक के लंबे वीडियो जनरेशन को सपोर्ट करता है।

उपयोगकर्ताओं को मॉडल का बेहतर उपयोग करने में मदद करने के लिए, टेनसेंट ने कुछ सुझाव भी साझा किए हैं, जैसे कि प्रॉम्प्ट लिखते समय संक्षिप्त रहना और यह सुनिश्चित करना कि मुख्य तत्व शामिल हैं, जिसमें वीडियो का मुख्य विषय, क्रिया और पृष्ठभूमि शामिल हैं।

प्रोजेक्ट: https://github.com/Tencent/HunyuanVideo-I2V?tab=readme-ov-file