Recientemente, MiniMax lanzó la segunda versión de su modelo de inteligencia artificial para videos, Hailuo02, con mejoras significativas en rendimiento y precio. Este nuevo modelo utiliza una arquitectura llamada Reasignación de Cómputo Consciente de Ruido (NCR, por sus siglas en inglés), y según MiniMax, esta tecnología mejora la eficiencia en el entrenamiento y la inferencia en un 2,5 veces. La arquitectura NCR procesa secuencias de video largas utilizando métodos diferentes según la etapa del entrenamiento. En las primeras etapas, se introduce mucho ruido artificial en los datos y los videos se comprimen al máximo; mientras que en etapas más avanzadas, cuando los videos son más claros, el modelo los procesa a resolución total.
En comparación con la versión anterior, Hailuo02 ha triplicado el número de parámetros y aumentado cuatro veces la cantidad de datos de entrenamiento. MiniMax también menciona que la calidad y diversidad de los datos han mejorado. Aunque la empresa no reveló números específicos sobre el tamaño de los parámetros ni la escala del conjunto de datos, afirmaron que Hailuo02 ha progresado notablemente en la generación de escenarios complejos (como movimientos de gimnasia). MiniMax también se enorgullece en anunciar que Hailuo02 es actualmente el único modelo capaz de generar escenas complejas con precisión.
Hailuo02 ofrece tres variantes disponibles: video de 768p de seis segundos, video de 768p de diez segundos y video de 1080p de seis segundos. En contraste, la versión anterior solo permitía videos de 720p, seis segundos de duración y 25 fps. En las pruebas de referencia del "Arena de Análisis de Vídeo Analítico", Hailuo02 quedó segundo en la categoría de imagen a video, detrás de Seedance de ByteDance, y superó a Veo3 de Google. Sin embargo, la versión actual de Veo3 carece de soporte para audio, lo que limita su atractivo.
Desde su lanzamiento el pasado agosto, más de 3.7 mil millones de videos han sido creados a través de la plataforma Hailuo. MiniMax describe su promoción inicial como relativamente aleatoria, pero rápidamente atrajo la atención de creadores de todo el mundo. Los usuarios pueden acceder a este modelo a través de la interfaz web, aplicaciones móviles o API. Para los usuarios de API, generar un video de 768p de seis segundos cuesta $0,28, mientras que la versión de 1080p cuesta $0,49. En comparación, usar Veo3 de Google para generar un video de 1080p de ocho segundos puede costar aproximadamente $3, dependiendo del plan seleccionado por el usuario.
MiniMax señaló que está trabajando en mejorar la velocidad de generación, estabilidad y agregando nuevas funciones más allá de las opciones actuales de texto a video e imagen a video. En comparación, plataformas rivales como Runway ya ofrecen funciones más avanzadas, como seguimiento de cámaras. El lanzamiento de Hailuo02 forma parte de las actividades semanales de MiniMax, durante las cuales la compañía también lanzó un modelo de lenguaje open source llamado MiniMax-M1, junto con un recuento de parámetros y un documento técnico. Por ahora, los detalles técnicos específicos sobre el marco de entrenamiento de Hailuo02 aún no han sido revelados.
Resaltado clave:
🌟 Hailuo02 es el nuevo modelo de IA para videos de segunda generación de MiniMax, que utiliza la arquitectura de reasignación de cómputo consciente de ruido, mejorando la eficiencia en el entrenamiento y la inferencia en un 2,5 veces.
💰 Este modelo ofrece videos de mayor resolución y mayor duración, y los costos de generación son significativamente más bajos que los de Veo3 de Google.
📊 Desde su lanzamiento, la plataforma Hailuo ha generado más de 3.7 mil millones de videos y ha atraído a una gran cantidad de creadores de todo el mundo.