阿里巴巴新一代基座模型Qwen3.5即将发布,已在HuggingFace提交代码合并申请。该模型采用全新混合注意力机制,可能原生支持视觉理解。预计将开源至少2B密集模型及35B-A3B的MoE模型,有望在春节期间正式开源。
商汤科技开源多模态自主推理模型SenseNova-MARS,提供8B和32B版本。该模型是首个Agentic VLM,融合动态视觉推理与图文搜索,能理解图像并自主推理,推动多模态大模型发展。
商汤科技开源SenseNova-MARS模型,具备动态视觉推理与图文搜索能力,模拟侦探逻辑实现AI自主执行。该模型含8B和32B版本,在MMSearch评测中以74.2分领先,性能超越GPT-5.2,标志着AI从理解到执行的重要跨越。
Moondream3.0预览版以轻量高效的混合专家架构(总参9B,激活仅2B)引领视觉语言模型革新。它在复杂场景中表现卓越,多项基准测试超越GPT-5、Gemini和Claude4等主流模型。相比擅长验证码识别的2.0版,3.0版显著扩展了视觉推理能力,引发AI社区广泛关注。
Proxy Lite 是一款开源的 3B 参数视觉语言模型(VLM),专注于网页自动化任务。
VLM-R1 是一个稳定且通用的强化视觉语言模型,专注于视觉理解任务。
开源的端到端视觉语言模型(VLM)基础的GUI代理
通过强化学习微调大型视觉-语言模型作为决策代理
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
-
128
$2
$20
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
$0.8
Moonshot
$4
$16
$0.15
$1.5
32
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
unsloth
GLM-4.1V-9B-Thinking 是基于视觉语言模型(VLM)开发的开源模型,旨在探索视觉语言模型推理能力的上限。它通过引入'思维范式'和强化学习,显著提升了模型能力,在10B参数的VLM中达到了领先水平。
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型,专门探索视觉语言模型推理能力的上限。它引入'思考范式'并利用强化学习显著增强能力,在10B参数的VLM中表现卓越,在多项基准任务中媲美甚至超越更大参数的模型。
dengcao
GLM-4.1V-9B-Thinking是一款强大的视觉语言模型(VLM),专注于多模态理解和推理,通过AWQ量化版本提供高效推理能力。
zai-org
GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型,通过引入'思维范式'和强化学习显著提升了模型性能,在100亿参数的VLMs中达到了领先水平,在18项基准任务中与甚至超越了720亿参数的Qwen-2.5-VL-72B。
Mungert
一个专为社区免费开放的图像字幕视觉语言模型(VLM),可用于训练扩散模型,支持多样化的图像风格和内容。
lusxvr
nanoVLM是一款轻量级的视觉语言模型(VLM),专为高效训练和实验而设计。
andito
nanoVLM 是一款轻量级的视觉语言模型(VLM),专为高效训练和实验而设计。
Hcompany
Holo1-3B是由HCompany开发的动作视觉语言模型(VLM),专为Surfer-H网络代理系统设计,能够像人类用户一样与网页界面进行交互。
FlashVL
FlashVL是一种优化视觉语言模型(VLMs)以用于实时应用的新方法,旨在实现超低延迟和高吞吐量,同时不牺牲准确性。
nanoVLM 是一款极简轻量级的视觉语言模型(VLM),专为高效训练和实验而设计。
VLM2Vec
VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型,通过训练视觉语言模型,为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。
trillionlabs
Trillion-LLaVA-7B是一个能够理解图像的视觉语言模型(VLM),基于Trillion-7B-preview基础模型开发。
nvidia
Eagle 2.5是一款前沿的视觉语言模型(VLM),专为长上下文多模态学习设计,支持处理长达512帧的视频序列和高分辨率图像。
nablasinc
由NABLAS开发的日语视觉语言模型(VLM),支持图像、多图像及视频输入,适用于多种多模态任务。
omlab
基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型,通过VLM-R1强化学习增强,支持开放词汇检测任务。
一款基于Qwen2.5-VL-3B-Instruct的视觉语言模型,经过数学增强和VLM-R1强化学习训练,专注于解决数学相关的视觉问答任务。
Menlo
Poseless-3B 是一种基于视觉语言模型(VLM)的机器人手部控制框架,能够直接将2D图像映射到关节角度,无需显式姿态估计。
基于Qwen2.5-VL-3B-Instruct的视觉语言模型,通过VLM-R1强化学习增强,专注于指代表达式理解任务。
MIL-UT
Asagi-8B是一个大规模的日语视觉与语言模型(VLM),基于广泛的日语数据集训练,整合了多样化的数据来源。