हाल ही में, बाइट डैंस ने अपने पूर्ववर्ती OmniHuman-1 के उत्तराधिकारी के रूप में बहुत ही आकर्षक OmniHuman-1.5 लॉन्च किया है, जो AI वीडियो जनरेशन क्षेत्र में फिर से एक गर्मी ला देता है। OmniHuman-1.5 एक छवि और ध्वनि इनपुट के संयोजन के माध्यम से बहुत वास्तविक गतिशील वीडियो उत्पन्न करता है, जो क्रियाओं के समन्वय और प्रदर्शन में सुधार करता है, और बहुत सारे अभिनव कार्यक्षमताओं के साथ फिल्म निर्माण, वर्चुअल ब्रॉडकास्टर, शिक्षा और प्रशिक्षण और विज्ञापन बाजार के क्षेत्रों में नए संभावनाएं प्रदान करता है।
परियोजना ठिकाना: https://omnihuman-lab.github.io/v1_5/
तकनीकी उन्नति: वास्तविकता और व्यापक क्षमता में बढ़ोतरी
OmniHuman-1.5 अपने पूर्ववर्ती के मुख्य तकनीक को जारी रखता है, जो एक छवि और ध्वनि के माध्यम से जीवंत व्यक्ति वीडियो उत्पन्न करता है। पिछली पीढ़ी की तुलना में, OmniHuman-1.5 वास्तविकता और व्यापक क्षमता में महत्वपूर्ण सुधार करता है। बाइट डैंस टीम द्वारा अपग्रेड किए गए बहुमाध्यम गति शर्त मिश्रित प्रशिक्षण रणनीति के कारण, उत्पादित वीडियो गति की प्राकृतिकता, मुख अनुकूलन और भावना अभिव्यक्ति में अधिक विस्तार और वास्तविकता प्रदर्शित करता है। व्यक्तिगत आकृति या कार्टून पात्रों के लिए, OmniHuman-1.5 ध्वनि सामग्री के साथ बहुत अच्छी तरह से मेल खाने वाले गतिशील प्रभाव उत्पन्न कर सकता है, जो अत्यधिक दृश्य गुणवत्ता दिखाता है।
अभिनव कार्यक्षमता: दो व्यक्ति स्थिति और लंबे वीडियो उत्पादन
दो व्यक्ति ध्वनि ड्राइव का समर्थन OmniHuman-1.5 का एक मुख्य बिंदु है। पारंपरिक AI वीडियो उत्पादन तकनीक अक्सर एकल व्यक्ति वाले स्थिति तक सीमित रहती है, जबकि OmniHuman-1.5 ने पहली बार दो व्यक्ति ध्वनि इनपुट के आधार पर वीडियो उत्पादन के लिए शुरू किया है, जो बहुत सटीक रूप से बहु-पात्र अंतर के बीच क्रियाएं और भावना को पकड़ सकता है, जो बहु-व्यक्ति वाले स्थिति प्रदर्शन के लिए तकनीकी समर्थन प्रदान करता है। इसके अलावा, यह एक मिनट से अधिक वीडियो उत्पादन के लिए समर्थन प्रदान करता है, फ्रेम-इंटर कनेक्शन रणनीति के माध्यम से लंबे समय तक वीडियो की संतति और पहचान स्थिरता सुनिश्चित करता है, जो अधिक जटिल अनुप्रयोग आवश्यकताओं, जैसे भाषण वीडियो, संगीत MV के लिए उपयोगी होता है।
भावना जागरूकता और पाठ संकेत: अधिक बुद्धिमान रचनात्मक अनुभव
OmniHuman-1.5 यांत्रिक क्रियाओं के उत्पादन के अलावा, ध्वनि में भावना की जागरूकता होती है और इसे वीडियो में प्रदर्शित करता है। उदाहरण के लिए, ध्वनि के टोन और भावना के आधार पर, प्रणाली व्यक्ति के चेहरे और शरीर की गति को स्वतः समायोजित कर सकती है, जो वीडियो को अधिक प्रभावशाली बनाता है। साथ ही, नई पाठ संकेत शब्द कार्यक्षमता के साथ उपयोगकर्ता अतिरिक्त वीडियो सामग्री के लिए शब्द वर्णन द्वारा अधिक विशिष्टता प्रदान कर सकते हैं, जैसे कि स्थिति शैली या क्रियाओं के विवरण निर्दिष्ट करें, जो रचनाकारों के लिए अधिक लचीलापन प्रदान करता है।
बहुशैली समर्थन: वास्तविक व्यक्ति से अवास्तविक तक पूर्ण ढांचा
वास्तविक व्यक्ति के आकार के अलावा, OmniHuman-1.5 अवास्तविक आकृति (जैसे कार्टून पात्र, 3D कार्टून आकृति) के साथ बहुत अच्छा प्रदर्शन करता है। प्रणाली विभिन्न कला शैलियों में गति के प्राकृतिक संगतता को बनाए रख सकती है, जो ध्वनि के साथ मुख और क्रिया के अनुकूलन को आदर्श रूप से सुनिश्चित करती है। इस विशेषता के कारण, इसका उपयोग खेल, वर्चुअल रियलिटी (VR) और एग्जाइटेड रियलिटी (AR) स्थिति में व्यापक रूप से किया जा सकता है, जो उपयोगकर्ताओं को एक गहरा अनुभव प्रदान करता है।
अनुप्रयोग: विभिन्न उद्योगों के सामग्री निर्माण में शक्ति प्रदान करता है
OmniHuman-1.5 के अनुप्रयोग की क्षमता उत्साहित करती है। फिल्म निर्माण क्षेत्र में, इसका उपयोग चरित्र एनिमेशन और विशेष प्रभाव निर्माण के लिए किया जा सकता है, जो ध्वनि के साथ संगत वर्चुअल अभिनेता वीडियो तेजी से उत्पन्न कर सकता है; वर्चुअल ब्रॉडकास्टर और मनोरंजन स्थिति में, रचनाकार इसका उपयोग जीवंत व्यक्ति आकृति उत्पन्न करने के लिए कर सकते हैं, जो लाइव इंटरैक्टिविटी को बढ़ा सकता है; शिक्षा और प्रशिक्षण में, OmniHuman-1.5 जीवंत शारीरिक भाषा के साथ शैक्षिक वीडियो उत्पन्न कर सकता है, जो सामग्री की आकर्षकता और समझ में आसानी में सुधार कर सकता है; विज्ञापन और बाजार में, अनुकूलित वर्चुअल पात्र ब्रांड प्रचार में सहायता कर सकते हैं, जो विपणन परिणाम में महत्वपूर्ण वृद्धि प्रदान कर सकते हैं।
तकनीकी भविष्य और चुनौतियां