最好的LanguageBind AI工具模型_精选LanguageBind资讯

模型

UniWorld V1

LanguageBind

UniWorld 是一个用于视觉理解、生成和编辑的统一框架，在20多个视觉任务中表现出色。

Video LLaVA 7B Hf

LanguageBind

Video-LLaVA是一个开源的多模态模型，通过在多模态指令跟随数据上微调大语言模型进行训练，能够生成交错的图像和视频。

MoE LLaVA Qwen 1.8B 4e

LanguageBind

MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型，通过稀疏激活参数实现高效的多模态学习

MoE LLaVA StableLM 1.6B 4e

LanguageBind

MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型，通过稀疏激活参数实现高效的多模态学习。

LanguageBind_Video_Huge_V1.5_FT

LanguageBind

LanguageBind 是一种通过语言实现多模态语义对齐的预训练模型，能够将视频、音频、深度、热成像等多种模态与语言进行绑定，实现跨模态的理解和检索。

LanguageBind_Video_V1.5_FT

LanguageBind

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现多模态语义对齐。

LanguageBind_Audio_FT

LanguageBind

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态间的纽带实现语义对齐。

LanguageBind_Video_FT

LanguageBind

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现视频、红外、深度、音频等多种模态的语义对齐。

LanguageBind_Video_merge

LanguageBind

LanguageBind是一种通过基于语言的语义对齐将视频-语言预训练扩展至N模态的多模态模型，获得了ICLR 2024的接收。

Video LLaVA 7B

LanguageBind

Video-LLaVA是一个通过投影前对齐学习统一视觉表征的多模态模型，能够同时处理图像和视频的视觉推理任务。

LanguageBind_Image

LanguageBind

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现语义对齐。

LanguageBind_Depth

LanguageBind

LanguageBind是一种以语言为中心的多模态预训练方法，通过语言作为不同模态之间的纽带，实现视频、红外、深度、音频等多种模态的语义对齐。

LanguageBind_Video

LanguageBind

LanguageBind是一种通过语言语义对齐将视频-语言预训练扩展至N模态的多模态预训练框架，被ICLR 2024收录。

LanguageBind_Audio

LanguageBind

LanguageBind 是一种以语言为中心的多模态预训练方法，通过语言语义对齐将视频-语言预训练扩展至N模态，实现了高性能的多模态理解与对齐。

LanguageBind_Thermal

LanguageBind

LanguageBind是一个通过语言作为纽带实现多模态语义对齐的预训练框架，支持视频、红外、深度、音频等多种模态与语言的联合学习。

智启未来，您的人工智能解决方案智库

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图