AIBase
首页
AI资讯
AI产品库
GEO平台
MCP服务
模型算力广场
ZH

模型

查看更多

UniWorld V1

LanguageBind

U

UniWorld 是一个用于视觉理解、生成和编辑的统一框架,在20多个视觉任务中表现出色。

多模态SafetensorsSafetensors
LanguageBind
253
20

Video LLaVA 7B Hf

LanguageBind

V

Video-LLaVA是一个开源的多模态模型,通过在多模态指令跟随数据上微调大语言模型进行训练,能够生成交错的图像和视频。

多模态TransformersTransformers
LanguageBind
13.2k
42

MoE LLaVA Qwen 1.8B 4e

LanguageBind

M

MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习

多模态TransformersTransformers
LanguageBind
176
14

MoE LLaVA StableLM 1.6B 4e

LanguageBind

M

MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型,通过稀疏激活参数实现高效的多模态学习。

多模态TransformersTransformers
LanguageBind
125
8

LanguageBind_Video_Huge_V1.5_FT

LanguageBind

L

LanguageBind 是一种通过语言实现多模态语义对齐的预训练模型,能够将视频、音频、深度、热成像等多种模态与语言进行绑定,实现跨模态的理解和检索。

多模态TransformersTransformers
LanguageBind
2.7k
4

LanguageBind_Video_V1.5_FT

LanguageBind

L

LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现多模态语义对齐。

多模态TransformersTransformers
LanguageBind
853
5

LanguageBind_Audio_FT

LanguageBind

L

LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态间的纽带实现语义对齐。

多模态TransformersTransformers
LanguageBind
12.6k
1

LanguageBind_Video_FT

LanguageBind

L

LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现视频、红外、深度、音频等多种模态的语义对齐。

多模态TransformersTransformers
LanguageBind
23k
4

LanguageBind_Video_merge

LanguageBind

L

LanguageBind是一种通过基于语言的语义对齐将视频-语言预训练扩展至N模态的多模态模型,获得了ICLR 2024的接收。

多模态TransformersTransformers
LanguageBind
11k
4

Video LLaVA 7B

LanguageBind

V

Video-LLaVA是一个通过投影前对齐学习统一视觉表征的多模态模型,能够同时处理图像和视频的视觉推理任务。

多模态TransformersTransformers
LanguageBind
2.1k
85

LanguageBind_Image

LanguageBind

L

LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现语义对齐。

多模态TransformersTransformers
LanguageBind
25.7k
11

LanguageBind_Depth

LanguageBind

L

LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态之间的纽带,实现视频、红外、深度、音频等多种模态的语义对齐。

多模态TransformersTransformers
LanguageBind
898
0

LanguageBind_Video

LanguageBind

L

LanguageBind是一种通过语言语义对齐将视频-语言预训练扩展至N模态的多模态预训练框架,被ICLR 2024收录。

多模态TransformersTransformers
LanguageBind
166
2

LanguageBind_Audio

LanguageBind

L

LanguageBind 是一种以语言为中心的多模态预训练方法,通过语言语义对齐将视频-语言预训练扩展至N模态,实现了高性能的多模态理解与对齐。

多模态TransformersTransformers
LanguageBind
271
3

LanguageBind_Thermal

LanguageBind

L

LanguageBind是一个通过语言作为纽带实现多模态语义对齐的预训练框架,支持视频、红外、深度、音频等多种模态与语言的联合学习。

多模态TransformersTransformers
LanguageBind
887
1
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商务合作网站地图