El 21 de abril de 2025, Sand AI lanzó el modelo de generación de video de código abierto MAGI-1, el cual, gracias a su innovadora arquitectura de difusión autorregresiva y su excelente rendimiento, se convirtió rápidamente en el centro de atención en el campo de la IA generativa.
El modelo utiliza la licencia Apache 2.0, y su código, pesos y herramientas de inferencia están disponibles en GitHub y Hugging Face, proporcionando a los desarrolladores de todo el mundo poderosas herramientas de creación.
MAGI-1 se basa en una arquitectura de transformador de difusión, e introduce innovaciones tecnológicas como la atención causal por bloques, bloques de atención paralelos y la normalización Sandwich. Genera videos de manera eficiente mediante la generación por bloques (24 fotogramas por bloque). Su diseño de pipeline único admite el procesamiento paralelo, pudiendo generar hasta cuatro bloques simultáneamente, lo que aumenta considerablemente la eficiencia.
El modelo, a través de la técnica de destilación rápida, admite presupuestos de inferencia flexibles y presenta un rendimiento excelente en la predicción del comportamiento físico y la coherencia temporal. Es adecuado para narrativas largas y escenas dinámicas complejas. La función de "extensión de video infinita" de MAGI-1 permite extender el contenido de video sin problemas, y combinada con el "control de línea de tiempo en segundos", los usuarios pueden realizar transiciones de escena y ediciones detalladas mediante indicaciones por bloque, satisfaciendo las necesidades de producción cinematográfica, narración de historias, etc.
En tareas de imagen a video, el modelo muestra una salida de alta fidelidad, con una resolución nativa de 1440x2568 píxeles, movimientos fluidos y detalles realistas. Como modelo de código abierto, MAGI-1 ofrece soporte de implementación de Docker. La versión de 24B parámetros requiere 8 GPU H100, mientras que la futura versión de 4.5B será compatible con una sola RTX 4090, reduciendo el umbral de uso.
La comunidad ha elogiado su calidad de generación y capacidad de seguimiento de instrucciones, con una puntuación superior a Kling 1.6 y Wan 2.1, aunque aún hay margen de mejora en el contenido de estilo no realista.
En el competitivo campo de la generación de video, MAGI-1 destaca por su código abierto y su arquitectura autorregresiva. Sand AI planea lanzar versiones más ligeras y profundizar en la optimización del hardware, lo que en el futuro podría impulsar aplicaciones de generación en tiempo real y realidad virtual. El lanzamiento de MAGI-1 no solo representa un avance tecnológico, sino también una contribución al ecosistema de código abierto, y tiene el potencial de remodelar el panorama de la creación de videos.
Para más información, visite sand.ai o Hugging Face (huggingface.co/sand-ai/MAGI-1).