学习联合视觉表示通过对齐前投影
AnasMohamed
基于Vision Transformer架构的大规模视觉语言模型,支持图像与文本的跨模态理解
LanguageBind
Video-LLaVA是一个开源的多模态模型,通过在多模态指令跟随数据上微调大语言模型进行训练,能够生成交错的图像和视频。
Video-LLaVA是一个通过投影前对齐学习统一视觉表征的多模态模型,能够同时处理图像和视频的视觉推理任务。