टिप्पणी करने वाले प्रमुख बिंदु:

🌟 Hailuo02, MiniMax का दूसरा पीढ़ी का वीडियो AI मॉडल है, जो शोर जागरूक कंप्यूटेशनल रिएसिग्नेशन (NCR) आर्किटेक्चर का उपयोग करता है और प्रशिक्षण और अनुमान दक्षता में 2.5 गुना सुधार करता है।

💰 इस मॉडल के पास उच्च रिज़ॉल्यूशन और लंबे समय तक वीडियो की सुविधा है और वीडियो उत्पादन की लागत Google के Veo3 से बहुत कम है।

📊 Hailuo प्लेटफॉर्म का उपयोग करके प्रदर्शित प्रारंभिक प्रचार के बाद से, 3.7 अरब से अधिक वीडियो बनाए गए हैं और विश्वव्यापी निर्माताओं की बड़ी संख्या को आकर्षित किया गया है।

हाल ही में, MiniMax ने अपने वीडियो AI मॉडल Hailuo02 का दूसरा पीढ़ी जारी किया है, जिसने प्रदर्शन और मूल्य में महत्वपूर्ण अपग्रेडिंग पेश की है। इस नई मॉडल ने शोर जागरूक कंप्यूटेशनल रिएसिग्नेशन (NCR) कहलाने वाली एक आर्किटेक्चर का उपयोग किया है, जिसके बारे में MiniMax ने कहा है कि इसने प्रशिक्षण और अनुमान की दक्षता में 2.5 गुना सुधार किया है। NCR आर्किटेक्चर लंबे वीडियो श्रृंखलाओं का प्रसंस्करण करते समय, प्रशिक्षण की अलग-अलग फेजों पर विभिन्न तरीकों का प्रयोग करता है। प्रशिक्षण की प्रारंभिक फेज में, डेटा में मानव-निर्मित शोर को बहुत अधिक मात्रा में जोड़ा जाता है और वीडियो को किसी भी तरह से घटाया जाता है; जबकि जब प्रशिक्षण बेहतर गुणवत्ता वाले वीडियो पर पहुंचता है, तो मॉडल पूरे रिज़ॉल्यूशन में विशिष्टता के साथ प्रोसेस करता है।

image.png

Hailuo02 के पूर्वीय संस्करण की तुलना में, इसका पैरामीटर की मात्रा तीन गुना बढ़ गई है, प्रशिक्षण डेटा की मात्रा चार गुना बढ़ गई है, और MiniMax ने बताया है कि डेटा की गुणवत्ता और विविधता में सुधार हुआ है। हालांकि कंपनी ने प्रत्येक पैरामीटर की संख्या या डेटासेट की आकार को बताने से इनकार कर दिया है, लेकिन वे बताते हैं कि Hailuo02 ने जटिल प्रेरणाएं और भौतिकीय प्रक्रियाओं के समानीकरण में महत्वपूर्ण प्रगति की है। MiniMax ने आश्वस्त किया है कि Hailuo02 वर्तमान में बनाए जा रहे सबसे अच्छे मॉडल है जो जटिल परिदृश्य (जैसे, शारीरिक खेल गतिविधियों) को सही ढंग से उत्पन्न कर सकता है।

image.png

Hailuo02 के तीन वेरिएंट उपलब्ध हैं: 768p, छह सेकंड का वीडियो, 768p, दस सेकंड का वीडियो और 1080p, छह सेकंड का वीडियो। पहले के संस्करण में, वीडियो की रिज़ॉल्यूशन केवल 720p थी, समय अवधि 6 सेकंड थी, और फ़्रेम रेट 25 fps थी। Artificial Analysis Video Arena (AAVA) बेंचमार्क टेस्ट में, Hailuo02 ने इमेज टू वीडियो के कैटेगरी में दूसरे स्थान पर रहा, ByteDance के Seedance के पीछे, और Google के व्यापक रूप से उम्मीद की जाने वाले Veo3 से आगे रहा। हालांकि, वर्तमान संस्करण के Veo3 में ऑडियो समर्थन नहीं है, जो इसकी आकर्षण का एक मुख्य बिंदु है।

हाल ही में, MiniMax ने अपने पहले आउटपुट के बाद से अपने प्लेटफॉर्म का उपयोग करके 3.7 अरब से अधिक वीडियो बनाए हैं। MiniMax ने अपने प्रारंभिक प्रचार को बहुत ही अस्थिर बताया, लेकिन जल्द ही इसे विश्वव्यापी निर्माताओं द्वारा व्यापक रूप से ध्यान आकर्षित कर लिया गया। उपयोगकर्ता इस मॉडल को वेब पेज इंटरफेस, मोबाइल ऐप या API के माध्यम से उपलब्ध करा सकते हैं। API उपयोगकर्ताओं के लिए, 768p, छह सेकंड के वीडियो का उत्पादन $0.28 के बजाय $0.49 के लिए 1080p का उत्पादन किया जाता है। इसकी तुलना में, Google के Veo3 का उपयोग करके आठ सेकंड का 1080p वीडियो बनाने के लिए लगभग $3 की लागत बन सकती है, जो उपयोगकर्ता द्वारा चुने गए प्लान पर निर्भर करती है।

MiniMax ने बताया है कि वे वीडियो उत्पादन की गति, स्थिरता में सुधार कर रहे हैं और वर्तमान टेक्स्ट टू वीडियो और इमेज टू वीडियो विकल्प के अलावा नए फ़ंक्शनलिटी जोड़ने पर काम कर रहे हैं। इसकी तुलना में, Runway जैसी प्रतिस्पर्धा प्लेटफॉर्मों ने ज्यादा उन्नत फ़ंक्शनलिटीज़, जैसे ट्रैकिंग शूट, पेश की हैं। Hailuo02 का जारी करना, MiniMax के वीकली इवेंट का हिस्सा है, जिसके दौरान कंपनी ने एक ओपन सोर्स भाषा मॉडल MiniMax-M1 जारी किया है, और उसके साथ पैरामीटर काउंट और तकनीकी पेपर जुड़ा है। हालांकि, Hailuo02 के प्रशिक्षण आर्किटेक्चर के बारे में विशिष्ट तकनीकी विवरण वर्तमान में सार्वजनिक नहीं हैं।