不错过全球AI革新的每一个时刻
每天三分钟关注AI行业趋势
AI行业大事记
列出所有AI硬件产品。
AI变现案例分享
AI图片制作变现案例分享
AI视频制作变现案例分享
AI音频制作变现案例分享
AI内容写作变现案例分享
免费分享最新AI教程内容
展示AI网站的总访问量排名
追踪AI网站访问量增长最快产品
关注访问量下降明显的AI网站
展示AI网站的周访问量排名
美国用户最喜欢的AI网站
中国用户最喜欢的AI网站
印度用户最喜欢的AI网站
巴西用户最喜欢的AI网站
AI图片生成网站总访问量榜单
AI个人助理网站总访问量榜单
AI角色生成网站总访问量榜单
AI视频生成网站总访问量榜单
热门AI项目总Start榜单
热门AI项目增速榜
热门AI开发者排名
热门AI组织排名榜单
热门deepseek开源项目
热门TTS开源项目
热门LLM开源项目
热门ChatGPT开源项目
github热门AI开源项目总览
发现与 Vision Language Model 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
在NeurIPS 2023大会上以口头报告形式发表的视觉指令微调(LLaVA)模型,其能力已达到甚至超越了GPT-4V的水平。
CVPR 2024录用(口头报告)InternVL家族:GPT-4o的开创性开源替代方案,性能逼近GPT-4o的多模态对话模型
DeepSeek-VL:迈向真实的视觉语言理解
万物皆可对齐:基于反馈训练全模态模型
「Mini-Gemini:挖掘多模态视觉语言模型的潜力」项目的官方代码库
InternLM-XComposer2.5-OmniLive:一个用于长期流式视频和音频交互的综合多模态系统
超棒的视觉语言模型合集,用于视觉任务
用于训练和运行 ColVision 模型(例如 ColPali、ColQwen2 和 ColSmol)的代码。
「Prismer:一种具有多任务专家的视觉语言模型」的实现
MLX-VLM 是一个软件包,允许您在 Mac 上使用 MLX 来进行视觉语言模型 (VLM) 的推理和微调。
【CVPR 2025】开源端到端视觉-语言-动作模型,用于图形用户界面代理和计算机使用。
【CVPR 2024 亮点?】Chat-UniVi:统一的视觉表征赋能大型语言模型进行图像和视频理解
一种新颖的多模态大型语言模型 (MLLM) 架构,旨在结构化地对齐视觉和文本嵌入。
【CVPR 2024?】大型多模态模型接地(GLaMM)是首个能够生成与目标分割掩码无缝集成的自然语言响应的模型。
CVPR 2024论文:Alpha-CLIP:一种专注于你想要目标区域的CLIP模型
著名的视觉语言模型及其架构
任意内容描述的实现:详细的本地化图像和视频字幕
无需解析的,由大型语言模型支持的检索增强生成
VoxPoser:用于机器人操作的组合式3D值图和语言模型
阿里云开源的Qwen2-VL和Qwen2.5-VL系列模型微调实现方案。