Lightricks ने अपने AI वीडियो जनरेशन मॉडल LTX-Video (LTXV) के बारे में घोषणा की है, जिसमें 60 सेकंड तक के छवि से वीडियो के लिए समर्थन जोड़ा गया है। इस बदलाव ने उद्योग के 8 सेकंड के सीमा के नियम को तोड़ दिया है और LTXV पहला ओपन सोर्स मॉडल बन गया है जो लंबे AI वीडियो के लिए वास्तविक समय पर स्ट्रीमिंग के समर्थन के साथ आता है।

60 सेकंड वीडियो जनरेशन: छोटे फिल्म से लंबे कथानक तक की छलांग
LTXV के नए संस्करण ने स्व-पुनरावर्ती स्ट्रीमिंग आर्किटेक्चर के माध्यम से एक छवि से 60 सेकंड तक के उच्च गुणवत्ता वाले वीडियो के जनरेशन को संभव बनाया है। पारंपरिक मॉडल के छोटे समय के आउटपुट के विपरीत, LTXV वीडियो जनरेशन के दौरान वीडियो को वास्तविक समय पर स्ट्रीम कर सकता है, पहले सेकंड के सामग्री को लगभग तत्काल प्रदर्शित कर सकता है, फिर से स्थान के निर्माण के लिए लगातार आगे बढ़ता है। इस तकनीक ने लंबे वीडियो जनरेशन के साथ-साथ क्रियाओं और कथानक के चलते समानता को सुनिश्चित करने में सक्षम किया, जो निर्माताओं के लिए अभूतपूर्व कथानक प्रस्तुति के अवसर प्रदान करता है।
उपयोगकर्ता विवरणपूर्ण टेक्स्ट प्रेरणा के साथ प्रारंभिक छवि के साथ वीडियो जनरेशन कर सकते हैं, जिसका रिजॉल्यूशन 768x512 या अधिक (जैसे 1216x704) है और फ्रेम दर 24FPS है। LTXV के बहु-मापक रेंडरिंग तकनीक छवि के सामान्य गति के साथ बुनियादी कार्यों को पहले छोटे रिजॉल्यूशन पर पकड़ता है, फिर चरण-दर-चरण विवरण को बेहतर बनाता है, जो वीडियो के गति और गुणवत्ता के बीच अद्भुत संतुलन सुनिश्चित करता है।
वास्तविक समय नियंत्रण और रचनात्मक लचीलापन
LTXV मॉडल के अपडेट ने डायनामिक स्केनरियो नियंत्रण सुविधा को शामिल किया है, जो वीडियो जनरेशन के दौरान उपयोगकर्ताओं के लिए आकृति, गहराई या शैली जैसे तत्वों के वास्तविक समय पर संशोधन की अनुमति देता है। Lightricks के IC-LoRA तकनीक के माध्यम से, निर्माता निरंतर नियंत्रण संकेत (जैसे आकृति डिटेक्शन या किनारा डिटेक्शन) लगाकर वीडियो विवरण के सटीक नियंत्रण कर सकते हैं। इस "जनरेशन के साथ निर्देशन" की क्षमता, LTXV के एकल प्रेरणा जनरेशन उपकरण से वास्तविक लंबे कथानक प्लेटफॉर्म में बदल देती है।
इसके अलावा, LTXV विभिन्न जनरेशन मोड के समर्थन के साथ आता है, जैसे टेक्स्ट से वीडियो, छवि से वीडियो, की-फ्रेम एनिमेशन और वीडियो एक्सपेंशन, जिससे उपयोगकर्ता अन्य छवि या छोटे वीडियो खंडों के साथ जुड़कर जटिल वीडियो सामग्री के जनरेशन कर सकते हैं। इस लचीलापन के कारण, इसका उपयोग सोशल मीडिया छोटे वीडियो से अंतरक्रिया शिक्षा सामग्री, यहां तक कि वास्तविक समय AR दृश्यों के व्यापक अनुप्रयोगों के लिए उपयोग किया जा सकता है।
कुशलता और ओपन सोर्स: व्यापक निर्माताओं के लिए शक्ति
LTXV का एक अन्य उल्लेखनीय बिंदु इसकी कुशलता और हार्डवेयर के साथ मिलने योग्यता है। 13 बिलियन पैरामीटर के मॉडल आर्किटेक्चर और bfloat16 शुद्धता अनुकूलन के कारण, LTXV उपभोक्ता ग्राफिक्स प्रोसेसिंग यूनिट (जैसे NVIDIA RTX4090 या 5090) पर बहुत कम VRAM की आवश्यकता के साथ 60 सेकंड के वीडियो के जनरेशन के लिए चल सकता है, जिसके लिए केवल कुछ सेकंड की आवश्यकता होती है। उदाहरण के लिए, H100 GPU पर, LTXV 5 सेकंड के वीडियो के जनरेशन के लिए 4 सेकंड में अपना काम कर सकता है, जो वास्तविक समय प्ले बैक से तेज है। इसके विपरीत, OpenAI के Sora जैसे प्रतिद्वंद्वी मॉडल के लिए आमतौर पर बहुत सारे GPU के समूह की आवश्यकता होती है, जो गणना लागत में बहुत अधिक होती है।
ओपन सोर्स मॉडल के रूप में, LTXV के कोड और वेट्स GitHub और Hugging Face पर मुफ्त उपलब्ध हैं, LTXV Open Weights License के अधीन, जो वैज्ञानिक अनुसंधान और समुदाय विकास के लिए समर्थन करता है। Lightricks ने LTX-Video-Trainer और ComfyUI एन्क्रिप्शन वर्कफ़्लो के साथ अनुबंध उपकरण भी जारी किए हैं, जो उपयोग के बाधाओं को कम करते हैं।
उद्योग प्रभाव और भविष्य की संभावनाएं
Lightricks के इस अपडेट ने AI वीडियो जनरेशन को नई ऊंचाई तक ले गए। 60 सेकंड वीडियो जनरेशन क्षमता के अपवर्जन ने स्वतंत्र निर्माताओं, बाजार टीमों और खेल विकासकर्ताओं के लिए लंबे सामग्री के जनरेशन की क्षमता प्रदान की है, जो वास्तविक समय अंतरक्रिया अनुप्रयोगों (जैसे डायनामिक AR दृश्य या खिलाड़ी निर्देशित खेल के ऑउटर के लिए आधार रखते हैं।
सोशल मीडिया प्रतिक्रिया के अनुसार, उपयोगकर्ता LTXV की गति और गुणवत्ता की प्रशंसा कर रहे हैं। उदाहरण के लिए, एक उपयोगकर्ता ने बताया कि RTX4080 पर 768x512 वीडियो के जनरेशन के लिए केवल 45 सेकंड लगे, और 60 सेकंड वीडियो के जनरेशन परिणाम अद्भुत रहे, हालांकि कुछ उपयोगकर्ताओं ने कार्य प्रवाह सेटिंग्स में अभी भी सुधार की आवश्यकता बताई।