El campo de la inteligencia artificial ha experimentado un gran avance. AIbase ha podido saber a través de las redes sociales que ByteDance ha anunciado recientemente la publicación de código abierto de su nuevo modelo generativo multimodal Liquid. Este modelo, con su innovadora codificación unificada y su arquitectura de un único modelo de lenguaje grande (LLM), ha logrado una integración perfecta entre la comprensión y la generación de tareas visuales. Este lanzamiento no solo muestra la ambición tecnológica de ByteDance en IA multimodal, sino que también proporciona a los desarrolladores de todo el mundo una potente herramienta de código abierto. A continuación, AIbase ofrece un análisis profundo del modelo Liquid, explorando sus innovaciones tecnológicas, descubrimientos clave e impacto en la industria.

Presentación del modelo Liquid: un nuevo paradigma de generación multimodal unificada
Liquid es un modelo multimodal basado en la generación autorregresiva. Su innovación principal radica en codificar imágenes y texto en un mismo espacio de tokens discretos, y procesar simultáneamente las tareas de comprensión y generación visual mediante un único LLM. AIbase ha podido saber que Liquid abandona la dependencia de los modelos multimodales tradicionales en incrustaciones visuales preentrenadas externas (como CLIP), utilizando VQVAE (codificador automático variacional de cuantificación vectorial) para convertir las imágenes en codificaciones discretas, compartiendo el espacio de características con los tokens de texto. Este diseño simplifica significativamente la arquitectura del modelo y mejora la eficiencia del entrenamiento.
Los comentarios en las redes sociales muestran que los desarrolladores valoran altamente la capacidad de generación unificada de Liquid. Ya sea generando imágenes de alta calidad, comprendiendo escenas visuales complejas o procesando tareas de texto largo, Liquid ha demostrado un rendimiento excelente. AIbase considera que la publicación de código abierto de Liquid (alojada en GitHub y Hugging Face) acelerará la innovación comunitaria en IA multimodal.

Tecnología central: un único LLM impulsa las tareas multimodales
El diseño de la arquitectura de Liquid se centra en los siguientes puntos clave:
Espacio de tokens unificado: mediante VQVAE, las imágenes se codifican en tokens discretos, entrenándose con los tokens de texto en el mismo espacio de características, lo que permite al modelo cambiar sin problemas entre tareas visuales y lingüísticas, sin necesidad de módulos de difusión adicionales.
Arquitectura de un único LLM: basándose en LLM existentes (como Qwen2.5, Gemma2) y expandiendo su vocabulario, Liquid optimiza simultáneamente la generación visual, la comprensión visual y las capacidades lingüísticas mediante entrenamiento mixto (60 millones de datos multimodales), ahorrando 100 veces el coste de entrenamiento.
Interacción multimodal: Liquid ha descubierto que las tareas de generación y comprensión visual se pueden mejorar mutuamente en un espacio de tokens unificado, eliminando los problemas de interferencia entre tareas de los modelos anteriores.
Según el análisis de AIbase, la forma de generación autorregresiva de Liquid hace que sea superior a SD v2.1 y SD-XL en la generación de imágenes de alta resolución (FID 5.47, MJHQ-30K), y supera a otros modelos multimodales autorregresivos en las pruebas de GenAI-Bench, mostrando su capacidad de alineación semántica con indicaciones complejas.
Descubrimiento innovador: eliminación a escala del compromiso de rendimiento
El descubrimiento clave de la investigación de Liquid ha revolucionado la comprensión tradicional del entrenamiento multimodal. El artículo señala que, en modelos de pequeña escala, el entrenamiento conjunto de tareas visuales y lingüísticas puede provocar una disminución de la capacidad lingüística. Sin embargo, Liquid revela por primera vez la ley de escala del entrenamiento multimodal: a medida que la escala del modelo aumenta de 0.5B a 32B, la compensación de rendimiento entre las tareas visuales y lingüísticas desaparece gradualmente, incluso apareciendo un efecto de mejora mutua.
AIbase ha podido saber a través de las redes sociales que este descubrimiento ha generado un gran debate entre los desarrolladores. Por ejemplo, Liquid-7B destaca tanto en la generación visual (puntuación VQA superior a Chameleon) como en las tareas lingüísticas (comparable a LLaMA2), lo que verifica el potencial del entrenamiento a escala. AIbase considera que esta ley proporciona una guía importante para el diseño de modelos multimodales de gran escala en el futuro.
Rendimiento y ecosistema de código abierto: una nueva herramienta para los desarrolladores
El rendimiento de Liquid es notable. AIbase ha recopilado sus logros en pruebas de referencia clave:
Generación visual: en la prueba MJHQ-30K, el valor FID de Liquid-7B es de 5.47, superior a SD-XL y Chameleon, y las imágenes generadas muestran un excelente rendimiento en detalles y coherencia semántica.
Comprensión visual: en las tareas complejas de razonamiento visual-lingüístico de GenAI-Bench, Liquid supera a otros modelos autorregresivos, acercándose al rendimiento de los modelos de difusión.
Capacidad lingüística: gracias al entrenamiento mixto de alta calidad, Liquid mantiene un nivel comparable al de los LLM principales (como LLaMA2) en las tareas de texto.
La estrategia de código abierto de Liquid amplía aún más su influencia. AIbase ha podido saber que Liquid ofrece varios tamaños de modelo, desde 0.5B hasta 32B, y los desarrolladores solo necesitan la biblioteca básica de transformers para ejecutar la inferencia o la evaluación, sin necesidad de dependencias de entorno complejas. En las redes sociales, los desarrolladores ya han comenzado a desarrollar aplicaciones creativas basadas en Liquid, como la generación de arte impulsada por texto y los sistemas de preguntas y respuestas multimodales.
Impacto en la industria: reconfiguración del panorama de la IA multimodal
El lanzamiento de Liquid consolida la competitividad global de ByteDance en el campo de la IA multimodal. AIbase ha observado que, en comparación con Chameleon de OpenAI (que requiere entrenamiento desde cero) o Gemini de Google (que depende de codificadores visuales externos), Liquid ofrece un rendimiento comparable con un coste de entrenamiento menor y mayor flexibilidad. Su modelo de código abierto y su API de bajo coste (0,2 USD por millón de tokens de entrada, 1,1 USD por salida) lo hacen muy atractivo para las pequeñas y medianas empresas y los desarrolladores independientes.
Para la industria, el paradigma de generación unificada de Liquid abre nuevas posibilidades para la creación de vídeos cortos, asistentes virtuales y la generación de contenido educativo. Por ejemplo, los equipos de marketing pueden utilizar Liquid para generar rápidamente materiales de vídeo con el estilo de la marca, y las instituciones educativas pueden crear cursos multimodales interactivos. AIbase prevé que el ecosistema de código abierto de Liquid generará más modelos personalizados basados en su arquitectura, impulsando la popularización de la IA multimodal.
Desafíos y perspectivas: hacia aplicaciones más amplias
A pesar del excelente rendimiento de Liquid, AIbase ha observado algunos desafíos mencionados por los usuarios en las redes sociales. Por ejemplo, la compensación de rendimiento de los modelos de pequeña escala aún necesita optimización, y la generación de escenarios complejos puede presentar distorsiones de detalles. AIbase recomienda a los desarrolladores que combinen conjuntos de datos de alta calidad y palabras clave precisas para mejorar los resultados. Además, es necesario aclarar aún más la privacidad de los datos y el uso ético del modelo, especialmente en la generación de contenido sensible.
De cara al futuro, ByteDance planea ampliar el soporte modal de Liquid (como audio y vídeo) y explorar el entrenamiento distribuido para reducir aún más los costes. AIbase prevé que, con el aumento de las contribuciones de la comunidad, Liquid podría lograr avances mayores en el campo de los agentes multimodales y la interacción en tiempo real.
Dirección del artículo: https://arxiv.org/pdf/2412.04332





