Investigadores chinos han logrado un importante avance en el ajuste de instrucciones de modelos lingüísticos grandes (LLM). Han presentado ImageBind-LLM, un método de ajuste de instrucciones multimodales para LLM a través de ImageBind. Este método utiliza datos de lenguaje visual para ajustar instrucciones multimodales, admite varios modos de instrucción y presenta una mejor escalabilidad y capacidad de generalización.
ImageBind-LLM se caracteriza por cuatro puntos clave: soporte para múltiples modos de instrucción, un método de ajuste eficiente, inyección de conocimiento progresiva y un modelo de caché visual. Esta investigación proporciona nuevos métodos y perspectivas para mejorar la capacidad de respuesta a instrucciones multimodales de los modelos lingüísticos grandes, con un potencial de aplicación práctica.