LanguageBind
UniWorld 是一个用于视觉理解、生成和编辑的统一框架,在20多个视觉任务中表现出色。
Video-LLaVA是一个开源的多模态模型,通过在多模态指令跟随数据上微调大语言模型进行训练,能够生成交错的图像和视频。
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型,通过稀疏激活参数实现高效的多模态学习。
LanguageBind 是一种通过语言实现多模态语义对齐的预训练模型,能够将视频、音频、深度、热成像等多种模态与语言进行绑定,实现跨模态的理解和检索。
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现多模态语义对齐。
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态间的纽带实现语义对齐。
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现视频、红外、深度、音频等多种模态的语义对齐。
LanguageBind是一种通过基于语言的语义对齐将视频-语言预训练扩展至N模态的多模态模型,获得了ICLR 2024的接收。
Video-LLaVA是一个通过投影前对齐学习统一视觉表征的多模态模型,能够同时处理图像和视频的视觉推理任务。
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现语义对齐。
LanguageBind是一种通过语言语义对齐将视频-语言预训练扩展至N模态的多模态预训练框架,被ICLR 2024收录。
LanguageBind 是一种以语言为中心的多模态预训练方法,通过语言语义对齐将视频-语言预训练扩展至N模态,实现了高性能的多模态理解与对齐。
LanguageBind是一个通过语言作为纽带实现多模态语义对齐的预训练框架,支持视频、红外、深度、音频等多种模态与语言的联合学习。