威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员开源了多模态大模型LLaVA-1.5,该模型在11项基准测试中表现出卓越性能,包括视觉问答和图像caption任务。LLaVA-1.5仅需8个A100 GPU,在1天内完成训练,性能显著。研究人员提出了在微调过程中添加输出格式提示的方法,使模型能够更好地适应不同任务。LLaVA-1.5的强大多模态理解能力挑战了GPT-4V的地位。