Modelo de generación de vídeo MAGI-1 de código abierto de Sand AI: expansión ilimitada, alta fidelidad

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Apr 22, 2025

El 21 de abril de 2025, Sand AI lanzó el modelo de generación de video de código abierto MAGI-1, el cual, gracias a su innovadora arquitectura de difusión autorregresiva y su excelente rendimiento, se convirtió rápidamente en el centro de atención en el campo de la IA generativa.

El modelo utiliza la licencia Apache 2.0, y su código, pesos y herramientas de inferencia están disponibles en GitHub y Hugging Face, proporcionando a los desarrolladores de todo el mundo poderosas herramientas de creación.

MAGI-1 se basa en una arquitectura de transformador de difusión, e introduce innovaciones tecnológicas como la atención causal por bloques, bloques de atención paralelos y la normalización Sandwich. Genera videos de manera eficiente mediante la generación por bloques (24 fotogramas por bloque). Su diseño de pipeline único admite el procesamiento paralelo, pudiendo generar hasta cuatro bloques simultáneamente, lo que aumenta considerablemente la eficiencia.

El modelo, a través de la técnica de destilación rápida, admite presupuestos de inferencia flexibles y presenta un rendimiento excelente en la predicción del comportamiento físico y la coherencia temporal. Es adecuado para narrativas largas y escenas dinámicas complejas. La función de "extensión de video infinita" de MAGI-1 permite extender el contenido de video sin problemas, y combinada con el "control de línea de tiempo en segundos", los usuarios pueden realizar transiciones de escena y ediciones detalladas mediante indicaciones por bloque, satisfaciendo las necesidades de producción cinematográfica, narración de historias, etc.

En tareas de imagen a video, el modelo muestra una salida de alta fidelidad, con una resolución nativa de 1440x2568 píxeles, movimientos fluidos y detalles realistas. Como modelo de código abierto, MAGI-1 ofrece soporte de implementación de Docker. La versión de 24B parámetros requiere 8 GPU H100, mientras que la futura versión de 4.5B será compatible con una sola RTX 4090, reduciendo el umbral de uso.

La comunidad ha elogiado su calidad de generación y capacidad de seguimiento de instrucciones, con una puntuación superior a Kling 1.6 y Wan 2.1, aunque aún hay margen de mejora en el contenido de estilo no realista.

En el competitivo campo de la generación de video, MAGI-1 destaca por su código abierto y su arquitectura autorregresiva. Sand AI planea lanzar versiones más ligeras y profundizar en la optimización del hardware, lo que en el futuro podría impulsar aplicaciones de generación en tiempo real y realidad virtual. El lanzamiento de MAGI-1 no solo representa un avance tecnológico, sino también una contribución al ecosistema de código abierto, y tiene el potencial de remodelar el panorama de la creación de videos.

Para más información, visite sand.ai o Hugging Face (huggingface.co/sand-ai/MAGI-1).

MAGI-1 SandAI Modelo de difusión autorregresivo IA generativa

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Xiaomi presenta el último modelo de múltimodal abierto Xiaomi MiMo-VL-7B-2508

El equipo de modelos grandes de Xiaomi anunció el lanzamiento del último modelo multimodal de múltimodal abierto Xiaomi MiMo-VL-7B-2508, que incluye dos versiones: RL y SFT. Los datos oficiales muestran que en las cuatro capacidades principales, razonamiento disciplinario, comprensión de documentos, localización de interfaces gráficas y comprensión de videos, el nuevo modelo ha superado los registros anteriores. Por primera vez, la prueba MMMU superó la barrera de los 70 puntos, ChartQA alcanzó un 94,4, ScreenSpot-v2 llegó a 92,5 y VideoMME subió a 70,8.

Aug 9, 2025

¡PyTorch 2.8 se lanza con un gran impulso: el rendimiento de la inferencia de LLM mejora significativamente! ¡Soporte para GPU de Intel en camino!

PyTorch 2.8 mejora el rendimiento de modelos de lenguaje grandes en CPUs Intel, con soporte para cuantización A16W8 y reducción de latencia. Incluye soporte experimental para GPUs Intel, mejoras en SYCL, XPU y ROCm, y optimización de operaciones de flujo de control.....

Aug 8, 2025

Nueva ruptura en el pago de agentes de IA: Lava Payments recauda 5,8 millones de dólares en una ronda de financiación semilla para crear un monedero digital de pago único

Lava Payments recaudó $5.8M en semilla para desarrollar un sistema de pagos con IA. Su solución permite transacciones fluidas entre agentes de IA y comercios sin autorización por transacción. Fundada por Mitchell Jones, ex emprendedor en fintech.....

Aug 8, 2025

El hechizo morado en el diseño de interfaces de IA: un tuit revela una fenómeno tecnológico

Este artículo analiza la prevalencia actual del tema morado en las interfaces de usuario generadas por IA, explorando sus raíces, causas técnicas y su posible impacto en el diseño futuro de interfaces. Los estudios muestran que este fenómeno proviene de la representación excesiva de los esquemas de color predeterminados del marco Tailwind CSS en los datos de entrenamiento de IA, revelando cómo las decisiones humanas de diseño pueden tener efectos inesperados a largo plazo a través del proceso de entrenamiento de los modelos de aprendizaje automático.

Aug 8, 2025

Cursor ofrece de forma gratuita el soporte de GPT-5 y presenta una nueva herramienta CLI

Cursor ofrece acceso gratuito a GPT-5 con límite de tiempo, superando a Claude Sonnet4 en codificación y matemáticas. Lanza herramienta CLI para desarrolladores y lidera el ranking LMArena.....

Aug 8, 2025

Diario de IA: GPT-5 se lanza oficialmente; Baidu lanzará el modelo de gran escala Wenxin 5.0; CNKI presenta el sistema de gestión de datos multimodal AIKBase V2.0

GPT-5 de OpenAI mejora arquitectura y precios. CNKI lanza AIKBase V2.0. Ideogram unifica estilos. Cursor CLI para programación. Baidu anuncia nuevo modelo. dots.OCR analiza documentos. Tesla cancela Dojo. Pixel 10 tendrá IA en cámara. Augment Code soporta GPT-5. Amazon Bedrock lidera en modelos IA.....

Aug 8, 2025

dots.ocr aparece de repente ¡Un poderoso analizador de documentos multilingüe con 1.700 millones de parámetros! Desafía a Doubao y Gemini

dots.ocr es un modelo ligero de análisis de documentos multilingüe con 1.7B parámetros. Destaca en OCR por su eficiencia, soporte para 100 idiomas, precisión en diseño y capacidad para tablas/fórmulas (salida LaTeX). Ideal para digitalización, aunque con limitaciones en tablas complejas.....

Aug 8, 2025

GPT-5 de OpenAI llega oficialmente a Cline, mostrando capacidades avanzadas de inteligencia artificial

El nuevo modelo GPT-5 de OpenAI, disponible en Cline, mejora en razonamiento, código y experiencia de usuario. Destaca en tareas complejas y desarrollo de software, superando a Claude4Sonnet. Ofrece tres versiones con funcionalidad multimodal para desarrollo, investigación y automatización empresarial.....

Aug 8, 2025

Cursor ¡Lanza la versión de línea de comandos! ¡La versión CLI revoluciona la programación con IA en la terminal!

Cursor lanza una versión con interfaz de línea de comandos (CLI) que ofrece soporte para programación con IA en entornos de terminal a los desarrolladores. La nueva versión incluye funciones como escritura de scripts automatizados, actualización de documentación y desencadenamiento de revisiones de seguridad, permitiendo a los desarrolladores ajustar en tiempo real el comportamiento de la IA desde la terminal. Destaca la revisión automática de código generado por la IA con un solo clic, compatibilidad con entornos de terminal de Linux/macOS/Windows y especialmente adecuada para desarrollo en servidores sin interfaz gráfica. La versión CLI convierte a Cursor de editor a herramienta de desarrollo integral, recibiendo buenas críticas de la comunidad de desarrolladores y demostrando su potencial.

Aug 8, 2025

Musk: La IA es la única esperanza para resolver la crisis de población en Japón

Musk expresa su opinión sobre la crisis de población en Japón: la población de Japón disminuirá en 908.000 personas en 2025, lo que marca un récord histórico; esta tendencia se remonta a hace 50 años y no tiene relación con la IA. Afirma que la IA podría ser la única esperanza para resolver el problema de la población. Los datos oficiales de Japón muestran que la población local ha estado disminuyendo durante 16 años consecutivos, con una tasa de natalidad récord y una tasa de mortalidad en aumento. Las declaraciones de Musk ofrecen una solución controvertida para los desafíos demográficos globales.

Aug 8, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Modelo de generación de vídeo MAGI-1 de código abierto de Sand AI: expansión ilimitada, alta fidelidad

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Xiaomi presenta el último modelo de múltimodal abierto Xiaomi MiMo-VL-7B-2508

¡PyTorch 2.8 se lanza con un gran impulso: el rendimiento de la inferencia de LLM mejora significativamente! ¡Soporte para GPU de Intel en camino!

Nueva ruptura en el pago de agentes de IA: Lava Payments recauda 5,8 millones de dólares en una ronda de financiación semilla para crear un monedero digital de pago único

El hechizo morado en el diseño de interfaces de IA: un tuit revela una fenómeno tecnológico

Cursor ofrece de forma gratuita el soporte de GPT-5 y presenta una nueva herramienta CLI

Diario de IA: GPT-5 se lanza oficialmente; Baidu lanzará el modelo de gran escala Wenxin 5.0; CNKI presenta el sistema de gestión de datos multimodal AIKBase V2.0

dots.ocr aparece de repente ¡Un poderoso analizador de documentos multilingüe con 1.700 millones de parámetros! Desafía a Doubao y Gemini

GPT-5 de OpenAI llega oficialmente a Cline, mostrando capacidades avanzadas de inteligencia artificial

Cursor ¡Lanza la versión de línea de comandos! ¡La versión CLI revoluciona la programación con IA en la terminal!

Musk: La IA es la única esperanza para resolver la crisis de población en Japón