ByteDance lanza el modelo multimodal Liquid de código abierto: una revolución en la generación unificada de imágenes y texto

AIbase基地

Publicado elNoticias de IA · 12 minutos de lectura · Apr 16, 2025

El campo de la inteligencia artificial ha experimentado un gran avance. AIbase ha podido saber a través de las redes sociales que ByteDance ha anunciado recientemente la publicación de código abierto de su nuevo modelo generativo multimodal Liquid. Este modelo, con su innovadora codificación unificada y su arquitectura de un único modelo de lenguaje grande (LLM), ha logrado una integración perfecta entre la comprensión y la generación de tareas visuales. Este lanzamiento no solo muestra la ambición tecnológica de ByteDance en IA multimodal, sino que también proporciona a los desarrolladores de todo el mundo una potente herramienta de código abierto. A continuación, AIbase ofrece un análisis profundo del modelo Liquid, explorando sus innovaciones tecnológicas, descubrimientos clave e impacto en la industria.

Presentación del modelo Liquid: un nuevo paradigma de generación multimodal unificada

Liquid es un modelo multimodal basado en la generación autorregresiva. Su innovación principal radica en codificar imágenes y texto en un mismo espacio de tokens discretos, y procesar simultáneamente las tareas de comprensión y generación visual mediante un único LLM. AIbase ha podido saber que Liquid abandona la dependencia de los modelos multimodales tradicionales en incrustaciones visuales preentrenadas externas (como CLIP), utilizando VQVAE (codificador automático variacional de cuantificación vectorial) para convertir las imágenes en codificaciones discretas, compartiendo el espacio de características con los tokens de texto. Este diseño simplifica significativamente la arquitectura del modelo y mejora la eficiencia del entrenamiento.

Los comentarios en las redes sociales muestran que los desarrolladores valoran altamente la capacidad de generación unificada de Liquid. Ya sea generando imágenes de alta calidad, comprendiendo escenas visuales complejas o procesando tareas de texto largo, Liquid ha demostrado un rendimiento excelente. AIbase considera que la publicación de código abierto de Liquid (alojada en GitHub y Hugging Face) acelerará la innovación comunitaria en IA multimodal.

Tecnología central: un único LLM impulsa las tareas multimodales

El diseño de la arquitectura de Liquid se centra en los siguientes puntos clave:

Espacio de tokens unificado: mediante VQVAE, las imágenes se codifican en tokens discretos, entrenándose con los tokens de texto en el mismo espacio de características, lo que permite al modelo cambiar sin problemas entre tareas visuales y lingüísticas, sin necesidad de módulos de difusión adicionales.

Arquitectura de un único LLM: basándose en LLM existentes (como Qwen2.5, Gemma2) y expandiendo su vocabulario, Liquid optimiza simultáneamente la generación visual, la comprensión visual y las capacidades lingüísticas mediante entrenamiento mixto (60 millones de datos multimodales), ahorrando 100 veces el coste de entrenamiento.

Interacción multimodal: Liquid ha descubierto que las tareas de generación y comprensión visual se pueden mejorar mutuamente en un espacio de tokens unificado, eliminando los problemas de interferencia entre tareas de los modelos anteriores.

Según el análisis de AIbase, la forma de generación autorregresiva de Liquid hace que sea superior a SD v2.1 y SD-XL en la generación de imágenes de alta resolución (FID 5.47, MJHQ-30K), y supera a otros modelos multimodales autorregresivos en las pruebas de GenAI-Bench, mostrando su capacidad de alineación semántica con indicaciones complejas.

Descubrimiento innovador: eliminación a escala del compromiso de rendimiento

El descubrimiento clave de la investigación de Liquid ha revolucionado la comprensión tradicional del entrenamiento multimodal. El artículo señala que, en modelos de pequeña escala, el entrenamiento conjunto de tareas visuales y lingüísticas puede provocar una disminución de la capacidad lingüística. Sin embargo, Liquid revela por primera vez la ley de escala del entrenamiento multimodal: a medida que la escala del modelo aumenta de 0.5B a 32B, la compensación de rendimiento entre las tareas visuales y lingüísticas desaparece gradualmente, incluso apareciendo un efecto de mejora mutua.

AIbase ha podido saber a través de las redes sociales que este descubrimiento ha generado un gran debate entre los desarrolladores. Por ejemplo, Liquid-7B destaca tanto en la generación visual (puntuación VQA superior a Chameleon) como en las tareas lingüísticas (comparable a LLaMA2), lo que verifica el potencial del entrenamiento a escala. AIbase considera que esta ley proporciona una guía importante para el diseño de modelos multimodales de gran escala en el futuro.

Rendimiento y ecosistema de código abierto: una nueva herramienta para los desarrolladores

El rendimiento de Liquid es notable. AIbase ha recopilado sus logros en pruebas de referencia clave:

Generación visual: en la prueba MJHQ-30K, el valor FID de Liquid-7B es de 5.47, superior a SD-XL y Chameleon, y las imágenes generadas muestran un excelente rendimiento en detalles y coherencia semántica.

Comprensión visual: en las tareas complejas de razonamiento visual-lingüístico de GenAI-Bench, Liquid supera a otros modelos autorregresivos, acercándose al rendimiento de los modelos de difusión.

Capacidad lingüística: gracias al entrenamiento mixto de alta calidad, Liquid mantiene un nivel comparable al de los LLM principales (como LLaMA2) en las tareas de texto.

La estrategia de código abierto de Liquid amplía aún más su influencia. AIbase ha podido saber que Liquid ofrece varios tamaños de modelo, desde 0.5B hasta 32B, y los desarrolladores solo necesitan la biblioteca básica de transformers para ejecutar la inferencia o la evaluación, sin necesidad de dependencias de entorno complejas. En las redes sociales, los desarrolladores ya han comenzado a desarrollar aplicaciones creativas basadas en Liquid, como la generación de arte impulsada por texto y los sistemas de preguntas y respuestas multimodales.

Impacto en la industria: reconfiguración del panorama de la IA multimodal

El lanzamiento de Liquid consolida la competitividad global de ByteDance en el campo de la IA multimodal. AIbase ha observado que, en comparación con Chameleon de OpenAI (que requiere entrenamiento desde cero) o Gemini de Google (que depende de codificadores visuales externos), Liquid ofrece un rendimiento comparable con un coste de entrenamiento menor y mayor flexibilidad. Su modelo de código abierto y su API de bajo coste (0,2 USD por millón de tokens de entrada, 1,1 USD por salida) lo hacen muy atractivo para las pequeñas y medianas empresas y los desarrolladores independientes.

Para la industria, el paradigma de generación unificada de Liquid abre nuevas posibilidades para la creación de vídeos cortos, asistentes virtuales y la generación de contenido educativo. Por ejemplo, los equipos de marketing pueden utilizar Liquid para generar rápidamente materiales de vídeo con el estilo de la marca, y las instituciones educativas pueden crear cursos multimodales interactivos. AIbase prevé que el ecosistema de código abierto de Liquid generará más modelos personalizados basados en su arquitectura, impulsando la popularización de la IA multimodal.

Desafíos y perspectivas: hacia aplicaciones más amplias

A pesar del excelente rendimiento de Liquid, AIbase ha observado algunos desafíos mencionados por los usuarios en las redes sociales. Por ejemplo, la compensación de rendimiento de los modelos de pequeña escala aún necesita optimización, y la generación de escenarios complejos puede presentar distorsiones de detalles. AIbase recomienda a los desarrolladores que combinen conjuntos de datos de alta calidad y palabras clave precisas para mejorar los resultados. Además, es necesario aclarar aún más la privacidad de los datos y el uso ético del modelo, especialmente en la generación de contenido sensible.

De cara al futuro, ByteDance planea ampliar el soporte modal de Liquid (como audio y vídeo) y explorar el entrenamiento distribuido para reducir aún más los costes. AIbase prevé que, con el aumento de las contribuciones de la comunidad, Liquid podría lograr avances mayores en el campo de los agentes multimodales y la interacción en tiempo real.

Dirección del artículo: https://arxiv.org/pdf/2412.04332

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

El equipo de Tsinghua y Kuaishou Ling presenta el modelo SVG, que reemplaza al VAE, resolviendo el problema de entrelazamiento semántico, mejorando la eficiencia de entrenamiento en un 6200% y la velocidad de generación en un 3500%, lo que marca el paulatino abandono del VAE en el campo de generación de imágenes.

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

La televisión central informó sobre el problema de las noticias falsas creadas por la IA. Li Liang, vicepresidente de Douyin, respondió diciendo que la IA es una espada de doble filo: aunque es fácil propagar rumores, Douyin está utilizando la IA para combatirlos, desarrollando agentes inteligentes para buscar rápidamente información autoritativa y desmentir los rumores.

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El equipo de voz de Doubao presenta una solución automatizada para la producción de audiolibros con múltiples personajes, logrando una producción end-to-end sin intervención humana, desde el texto de una novela hasta el producto final de radio. No se requiere doblaje, edición ni intervención humana, reduciendo los costos y mejorando la eficiencia, con resultados cercanos al nivel profesional, alcanzando una tasa de precisión del 98% en la identificación de personajes.

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

Liao Qian, ex responsable de productos de inteligencia artificial de CapCut de Bytedance, fundó la empresa 'Contexto extremo', dedicada al desarrollo de Agentes multimodales para marketing. Gracias a su amplia experiencia en el campo de AIGC, logró una ronda de financiación inicial de varios millones de dólares. Liao Qian trabajó previamente en Tencent y Bytedance, y desde 2019 se ha dedicado a la tecnología AIGC, atrayendo la atención del sector.

Adobe Firefly Image 5: Gran actualización: generación nativa de 4 millones de píxeles, pista de audio de IA + modelos personalizados, los creadores entran en una nueva era de creación artística con IA integral

Adobe lanzó el modelo de generación de imágenes de IA de nivel profesional Firefly Image5, logrando un cambio cualitativo de "suficiente" a nivel profesional. Las nuevas funciones incluyen salida nativa de 4 millones de píxeles, edición de sugerencias por capas, modelos de estilo artístico personalizados y generación de música de voz de IA, cerrando el ciclo de creación de IA para imágenes, videos y audio, redefiniendo así el flujo de trabajo creativo.

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA lanza el modelo de comprensión multimodal OmniVinci, obteniendo 19.05 puntos más que los modelos principales en varias pruebas estándar. Este modelo utiliza solo 0.2 billones de tokens de entrenamiento, teniendo una eficiencia de datos seis veces mayor que la de sus competidores. Su objetivo es lograr una comprensión unificada de la visión, el audio y el texto, impulsando el desarrollo de la capacidad cognitiva multimodal de las máquinas.

El modelo de generación de video Hailuo2.3 de AI se lanza en la plataforma Replicate, ofreciendo simulaciones físicas realistas y efectos cinematográficos

El modelo de generación de video Hailuo2.3 de la empresa MiniMax se lanza en la plataforma Replicate, admitiendo entradas de texto e imágenes para generar videos de alta calidad. Este modelo mejora la eficiencia del entrenamiento mediante una arquitectura NCR, con capacidad para simulaciones físicas realistas y captura de movimientos fluidos, impulsando la innovación en efectos visuales dinámicos en campos como el cine y los anuncios publicitarios.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

ByteDance lanza el modelo multimodal Liquid de código abierto: una revolución en la generación unificada de imágenes y texto

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

El modelo de voz SoulX-Podcast de Soul se lanza con un impacto: generación de podcasts sin interrupciones de 90 minutos, la revolución de la voz AI se actualiza nuevamente

Adobe Firefly Image 5: Gran actualización: generación nativa de 4 millones de píxeles, pista de audio de IA + modelos personalizados, los creadores entran en una nueva era de creación artística con IA integral

IBM presenta el modelo Granite 4.0 Nano, rompiendo los límites de rendimiento de los modelos de inteligencia artificial pequeños

​NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

El modelo de generación de video Hailuo2.3 de AI se lanza en la plataforma Replicate, ofreciendo simulaciones físicas realistas y efectos cinematográficos

Noticias de IA relacionadas recomendadas

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

El modelo de voz SoulX-Podcast de Soul se lanza con un impacto: generación de podcasts sin interrupciones de 90 minutos, la revolución de la voz AI se actualiza nuevamente

Adobe Firefly Image 5: Gran actualización: generación nativa de 4 millones de píxeles, pista de audio de IA + modelos personalizados, los creadores entran en una nueva era de creación artística con IA integral

IBM presenta el modelo Granite 4.0 Nano, rompiendo los límites de rendimiento de los modelos de inteligencia artificial pequeños

​NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

El modelo de generación de video Hailuo2.3 de AI se lanza en la plataforma Replicate, ofreciendo simulaciones físicas realistas y efectos cinematográficos

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6