最好的LanguageBind AI工具模型_精選LanguageBind資訊

模型

UniWorld V1

LanguageBind

UniWorld 是一個用於視覺理解、生成和編輯的統一框架，在20多個視覺任務中表現出色。

Video LLaVA 7B Hf

LanguageBind

Video-LLaVA是一個開源的多模態模型，通過在多模態指令跟隨數據上微調大語言模型進行訓練，能夠生成交錯的圖像和視頻。

MoE LLaVA Qwen 1.8B 4e

LanguageBind

MoE-LLaVA是一種基於專家混合架構的大型視覺語言模型，通過稀疏激活參數實現高效的多模態學習

MoE LLaVA StableLM 1.6B 4e

LanguageBind

MoE-LLaVA是一種基於專家混合架構的大規模視覺語言模型，通過稀疏激活參數實現高效的多模態學習。

LanguageBind_Video_Huge_V1.5_FT

LanguageBind

LanguageBind 是一種通過語言實現多模態語義對齊的預訓練模型，能夠將視頻、音頻、深度、熱成像等多種模態與語言進行綁定，實現跨模態的理解和檢索。

LanguageBind_Video_V1.5_FT

LanguageBind

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現多模態語義對齊。

LanguageBind_Audio_FT

LanguageBind

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態間的紐帶實現語義對齊。

LanguageBind_Video_FT

LanguageBind

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現視頻、紅外、深度、音頻等多種模態的語義對齊。

LanguageBind_Video_merge

LanguageBind

LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型，獲得了ICLR 2024的接收。

Video LLaVA 7B

LanguageBind

Video-LLaVA是一個通過投影前對齊學習統一視覺表徵的多模態模型，能夠同時處理圖像和視頻的視覺推理任務。

LanguageBind_Image

LanguageBind

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現語義對齊。

LanguageBind_Depth

LanguageBind

LanguageBind是一種以語言為中心的多模態預訓練方法，通過語言作為不同模態之間的紐帶，實現視頻、紅外、深度、音頻等多種模態的語義對齊。

LanguageBind_Video

LanguageBind

LanguageBind是一種通過語言語義對齊將視頻-語言預訓練擴展至N模態的多模態預訓練框架，被ICLR 2024收錄。

LanguageBind_Audio

LanguageBind

LanguageBind 是一種以語言為中心的多模態預訓練方法，通過語言語義對齊將視頻-語言預訓練擴展至N模態，實現了高性能的多模態理解與對齊。

LanguageBind_Thermal

LanguageBind

LanguageBind是一個通過語言作為紐帶實現多模態語義對齊的預訓練框架，支持視頻、紅外、深度、音頻等多種模態與語言的聯合學習。

智啟未來，您的人工智能解決方案智庫

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商務合作網站地圖