AIBase
首頁
AI資訊
AI產品庫
GEO平台
MCP服务
模型算力廣場
TW

模型

查看更多

UniWorld V1

LanguageBind

U

UniWorld 是一個用於視覺理解、生成和編輯的統一框架,在20多個視覺任務中表現出色。

多模態SafetensorsSafetensors
LanguageBind
253
20

Video LLaVA 7B Hf

LanguageBind

V

Video-LLaVA是一個開源的多模態模型,通過在多模態指令跟隨數據上微調大語言模型進行訓練,能夠生成交錯的圖像和視頻。

多模態TransformersTransformers
LanguageBind
13.2k
42

MoE LLaVA Qwen 1.8B 4e

LanguageBind

M

MoE-LLaVA是一種基於專家混合架構的大型視覺語言模型,通過稀疏激活參數實現高效的多模態學習

多模態TransformersTransformers
LanguageBind
176
14

MoE LLaVA StableLM 1.6B 4e

LanguageBind

M

MoE-LLaVA是一種基於專家混合架構的大規模視覺語言模型,通過稀疏激活參數實現高效的多模態學習。

多模態TransformersTransformers
LanguageBind
125
8

LanguageBind_Video_Huge_V1.5_FT

LanguageBind

L

LanguageBind 是一種通過語言實現多模態語義對齊的預訓練模型,能夠將視頻、音頻、深度、熱成像等多種模態與語言進行綁定,實現跨模態的理解和檢索。

多模態TransformersTransformers
LanguageBind
2.7k
4

LanguageBind_Video_V1.5_FT

LanguageBind

L

LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現多模態語義對齊。

多模態TransformersTransformers
LanguageBind
853
5

LanguageBind_Audio_FT

LanguageBind

L

LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態間的紐帶實現語義對齊。

多模態TransformersTransformers
LanguageBind
12.6k
1

LanguageBind_Video_FT

LanguageBind

L

LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現視頻、紅外、深度、音頻等多種模態的語義對齊。

多模態TransformersTransformers
LanguageBind
23k
4

LanguageBind_Video_merge

LanguageBind

L

LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型,獲得了ICLR 2024的接收。

多模態TransformersTransformers
LanguageBind
11k
4

Video LLaVA 7B

LanguageBind

V

Video-LLaVA是一個通過投影前對齊學習統一視覺表徵的多模態模型,能夠同時處理圖像和視頻的視覺推理任務。

多模態TransformersTransformers
LanguageBind
2.1k
85

LanguageBind_Image

LanguageBind

L

LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現語義對齊。

多模態TransformersTransformers
LanguageBind
25.7k
11

LanguageBind_Depth

LanguageBind

L

LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態之間的紐帶,實現視頻、紅外、深度、音頻等多種模態的語義對齊。

多模態TransformersTransformers
LanguageBind
898
0

LanguageBind_Video

LanguageBind

L

LanguageBind是一種通過語言語義對齊將視頻-語言預訓練擴展至N模態的多模態預訓練框架,被ICLR 2024收錄。

多模態TransformersTransformers
LanguageBind
166
2

LanguageBind_Audio

LanguageBind

L

LanguageBind 是一種以語言為中心的多模態預訓練方法,通過語言語義對齊將視頻-語言預訓練擴展至N模態,實現了高性能的多模態理解與對齊。

多模態TransformersTransformers
LanguageBind
271
3

LanguageBind_Thermal

LanguageBind

L

LanguageBind是一個通過語言作為紐帶實現多模態語義對齊的預訓練框架,支持視頻、紅外、深度、音頻等多種模態與語言的聯合學習。

多模態TransformersTransformers
LanguageBind
887
1
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商務合作網站地圖