En los últimos años, los modelos lingüísticos grandes (LLM) han logrado avances significativos en el campo de la inteligencia artificial, especialmente en la fusión multimodal. Un equipo conjunto de la Universidad de Ciencia y Tecnología de Huazhong, ByteDance y la Universidad de Hong Kong ha propuesto recientemente un nuevo marco de generación multimodal, Liquid, diseñado para abordar las limitaciones de los modelos multimodales principales actuales en el procesamiento visual.

image.png

Los modelos multimodales grandes tradicionales dependen de complejos módulos visuales externos, lo que no solo aumenta la complejidad del sistema, sino que también limita su escalabilidad. La innovación de Liquid radica en el uso de VQGAN como tokenizador de imágenes, eliminando la dependencia de componentes visuales externos. Al codificar imágenes en tokens visuales discretos, el modelo puede compartir directamente el vocabulario con los tokens de texto, logrando así una capacidad de comprensión y generación visual "nativa".

image.png

Los estudios han demostrado que Liquid no solo reduce los costes de entrenamiento, sino que también revela las leyes de escala entre la capacidad multimodal y los LLM. El equipo realizó experimentos en LLM de diferentes tamaños (de 0.5B a 32B), y los resultados mostraron que, a medida que aumenta el tamaño del modelo, el rendimiento y la calidad de generación en tareas de generación visual siguen la misma ley de escalado que las tareas lingüísticas. Aún más emocionante es la relación de promoción bidireccional entre la comprensión y la generación visual, que se pueden optimizar conjuntamente a través de un espacio de representación compartido.

El diseño de Liquid refleja plenamente el minimalismo, tratando las imágenes y el texto por igual con un marco de procesamiento unificado. Durante el proceso de construcción, el equipo de investigación utilizó 30 millones de datos de texto y 30 millones de pares de datos de texto e imagen para sentar las bases del entrenamiento multimodal del modelo. Los resultados experimentales finales muestran que Liquid presenta un rendimiento superior en la comprensión multimodal, la generación de imágenes y las tareas de texto puro, y la coherencia semántica entre las imágenes y el texto generados es significativamente mayor que la de otros modelos autoregresivos.

La propuesta de Liquid proporciona una nueva perspectiva para el diseño de arquitecturas de inteligencia multimodal general, lo que presagia una evolución más eficiente y flexible de la inteligencia artificial en la fusión multimodal del futuro.

Enlace del artículo: https://arxiv.org/pdf/2412.04332