AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI产品

查看更多
Video-LLaVA

Video-LLaVA

学习联合视觉表示通过对齐前投影

AI视频搜索
10.7k

模型

查看更多

Video Llava

AnasMohamed

V

基于Vision Transformer架构的大规模视觉语言模型,支持图像与文本的跨模态理解

多模态GgufGguf
AnasMohamed
194
0

Video LLaVA 7B Hf

LanguageBind

V

Video-LLaVA是一个开源的多模态模型,通过在多模态指令跟随数据上微调大语言模型进行训练,能够生成交错的图像和视频。

多模态TransformersTransformers
LanguageBind
13.2k
42

Video LLaVA 7B

LanguageBind

V

Video-LLaVA是一个通过投影前对齐学习统一视觉表征的多模态模型,能够同时处理图像和视频的视觉推理任务。

多模态TransformersTransformers
LanguageBind
2.1k
85
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商务合作网站地图