Kürzlich hat MiniMax die zweite Generation seines Video-KI-Modells Hailuo02 vorgestellt, das durch bedeutende Verbesserungen in Bezug auf Leistung und Preis auffällt. Dieses neue Modell verwendet eine Architektur namens "Geräusch-basierte Berechnungs-Reweightung (NCR)", mit der laut MiniMax Trainings- und Inferenzleistung um das Doppelte verbessert wurde. Die NCR-Architektur verarbeitet lange Videosequenzen je nach Trainingsschritt unterschiedlich. In der Anfangsphase des Trainings werden große Mengen an künstlichem Rauschen eingeführt und die Videos möglichst stark komprimiert. Wenn das Training zu klareren Bildern führt, wird das Modell im vollständigen Auflösungsbereich verarbeitet.

image.png

Im Vergleich zur vorherigen Version hat Hailuo02 die Parameteranzahl verdreifacht und die Trainingsdatenmenge vervierfacht. MiniMax betonte auch, dass sowohl die Qualität als auch die Vielfalt der Daten verbessert wurden. Obwohl die Firma keine genauen Zahlen bezüglich der Parameter oder Datensätze preisgab, erklärte sie, dass Hailuo02 signifikante Fortschritte bei der Verarbeitung komplexer Prompts und physikalischer Prozesse gemacht hat. Außerdem erklärte MiniMax stolz, dass Hailuo02 derzeit das einzige Modell ist, das komplexe Szenarien wie Gymnastikaktionen genau generieren kann.

image.png

Hailuo02 bietet drei Varianten zur Auswahl: 768p-Videos für sechs Sekunden, 768p-Videos für zehn Sekunden und 1080p-Videos für sechs Sekunden. Der frühere Version war es nur möglich, 720p-Videos für sechs Sekunden mit einer Frame-Rate von 25 fps zu erstellen. Bei den Benchmarks des "Artificial Analysis Video Arena"-Tests belegte Hailuo02 den zweiten Platz in der Kategorie "Bild-zu-Video", hinter ByteDance's Seedance, und lag vor Googles viel erwartetem Veo3. Allerdings fehlt dem aktuellen Veo3-Release die Unterstützung für Audio, was ein großes Manko darstellt.

Seit seiner Einführung im letzten August haben über 3,7 Milliarden Videos über die Hailuo-Plattform entstanden. MiniMax beschrieb die ursprüngliche Verbreitung als relativ zufällig, aber bald fand sie weltweites Interesse unter Schöpfern. Benutzer können das Modell über die Web-Oberfläche, die mobile App oder die API zugreifen. Für API-Nutzer kostet die Erstellung eines 768p-Videos für sechs Sekunden 0,28 Dollar, während die 1080p-Version 0,49 Dollar kostet. Im Vergleich dazu könnte es für etwa 3 Dollar nötig sein, eine achtsekündige 1080p-Video mit Google Veo3 zu erstellen, abhängig von der ausgewählten Option.

MiniMax erklärte, dass sie sich bemühen, die Generierungsgeschwindigkeit, Stabilität zu verbessern und neue Funktionen außerhalb der derzeit verfügbaren Text-zu-Video- und Bild-zu-Video-Optionen hinzuzufügen. Konkurrenten wie Runway bieten bereits fortgeschrittenere Funktionen an, wie zum Beispiel die Tracking-Kamera. Die Einführung von Hailuo02 war Teil von Minimaxes Aktivitäten in dieser Woche, in denen sie auch einen Open-Source-Sprachmodell namens MiniMax-M1 veröffentlichte, zusammen mit den Parameterzählungen und einer technischen Dokumentation. Technische Details der Trainingsarchitektur von Hailuo02 sind jedoch noch nicht öffentlich verfügbar.

Wichtige Punkte:

✨ Hailuo02 ist der neue zweite Generation des Video-KI-Modells von MiniMax, das mit der Architektur "Geräusch-basierte Berechnungs-Reweightung (NCR)" arbeitet und die Trainings- und Inferenzleistung um das Doppelte steigert.

💸 Das Modell bietet höhere Auflösung und längere Videos mit deutlich niedrigeren Kosten als Google's Veo3.

📊 Seit seiner Einführung hat die Hailuo-Plattform über 3,7 Milliarden Videos generiert und weltweit viele Schöpfer angelockt.