अंतर्राष्ट्रीय रूप से पहला मूल भाषण केंद्रित फिल्म बनाने वाला ध्वनि-छवि समायोजन मॉडल - गागा एआई आधिकारिक रूप से पेश किया गया। इस अभिनव उपकरण को गागा एआई टीम द्वारा लॉन्च किया गया है, जो आम छवि एनीमेशन या होंठ मिलान के बजाय, वास्तविक एक "अभिनेता" के आत्मा को देता है: एक खाली छवि और एक टिप्पणी के साथ, 60 सेकंड तक के फिल्म डिग्री वीडियो का उत्पादन कर सकता है, जिसमें भावनाओं के गहरे अभिनय, दो लोगों के बीच अंतरक्रिया दृश्य, और बहुभाषा समर्थन शामिल है। उद्योग के विशेषज्ञों के अनुसार, यह AI के "उपकरण" से "रचनाकार" तक की छलांग को चिह्नित करता है, जिससे फिल्म निर्माण के प्रवेश बाधाओं को बदल दिया जाएगा।

फिल्म डिग्री "अभिनय": AI अभिनेता से अधिक लोगों के बारे में समझता है?

गागा एआई का मुख्य लाभ इसकी "अभिनय" क्षमता है। पारंपरिक AI मॉडल के यांत्रिक दोहराव के विपरीत, यह उपकरण टिप्पणी में स्थित स्थिति, ढंग और भावना का बुद्धिमानी से विश्लेषण कर सकता है, जिससे अद्भुत बारीक चेहरे के बदलाव और शरीर के भाषा का उत्पादन होता है। उदाहरण के लिए, "एक महिला बरसात में अलविदा के दुःख के बारे में कहती है," टिप्पणी के साथ, AI न केवल होंठ के समायोजन और आवाज के साथ अनुकूलन करेगा, बल्कि आंखों के हल्के झुकाव, होंठ के हल्के बंद होने तक के छोटे-छोटे विवरण को भी पकड़ेगा, यहां तक कि वातावरण के प्रकाश और छाया के छोटे-छोटे संक्रमण के साथ भी शामिल हो जाएगा। प्रदर्शन वीडियो दिखाता है कि उत्पादित अंश एक वास्तविक फिल्म के समान है: कोई अतिरिक्त अभिव्यक्ति विघटन नहीं होता, भावनात्मक बदलाव स्वाभाविक रूप से सुचारू होता है, जैसे कि AI फिल्म संस्थान में अध्ययन कर चुका हो।

image.png

उपयोगकर्ता प्रतिक्रिया दर्शाती है कि ऐसा "मुखर" अभिव्यक्ति क्षमता, रचनाकारों को एक निर्देशक बना देती है। एक 10 सेकंड के छोटे फिल्म में, जटिल भावनात्मक वक्र के उत्पादन के लिए आसानी से निर्माण किया जा सकता है, जो वर्तमान में उपलब्ध ओपन सोर्स मॉडल, जैसे Sora या Gen-3 के व्यक्ति संगतता और गतिशील सटीकता के मामले में बहुत आगे रहता है।

ध्वनि और छवि एक साथ: छवि से फिल्म तक शून्य प्रवेश बाधा

इसका उपयोग आश्चर्यजनक रूप से सरल है: एक व्यक्ति की छवि अपलोड करें (आधा शरीर या पूरा शरीर समर्थित), एक टेक्स्ट टिप्पणी दर्ज करें (जैसे कि रुकावट, पृष्ठभूमि संगीत या क्रिया वर्णन सहित), गागा एआई एक चरण में पूरा वीडियो उत्पन्न कर सकता है। कोई बाद के संपादन की आवश्यकता नहीं है, ध्वनि, अभिव्यक्ति और क्रिया पूरी तरह से एक साथ मिल जाती है, अंग्रेजी, चीनी आदि सहित विश्व के कई भाषाओं के उत्पादन का समर्थन करता है। विशेष रूप से ध्यान देने योग्य दो-व्यक्ति दृश्य समर्थन है - उपयोगकर्ता भागीदार समय रेखा और वाक्यांश वितरण को नियंत्रित कर सकते हैं, आसानी से बातचीत अंतरक्रिया अंश बना सकते हैं, जो छोटे नाटक, उत्पाद प्रस्तुति या सामाजिक सामग्री के लिए उपयोगी है।

परीक्षण में, यह मॉडल उत्पादित वीडियो की रिज़ॉल्यूशन 1080P तक पहुंच गई, समय लचीला विस्तार कर सकता है, पृष्ठभूमि संगीत और वातावरण के ध्वनि प्रभाव भावनात्मक ritm के अनुकूलन करते हैं। यह फिल्म निर्माण लागत को कम करने के साथ-साथ स्वतंत्र रचनाकारों के लिए एक नई दरवाजा खोलता है: कोई अभिनेता, स्टूडियो की आवश्यकता नहीं होती, एक मोबाइल फोन की खुद की छवि के साथ एक विशेषज्ञ स्तर के कार्य के रूप में बदल जाता है।

उद्योग प्रभाव: AI फिल्म के नए युग की शुरुआत