最好的विज़ुअल लैंग्वेज मॉडल (VLM) AI工具模型_精选विज़ुअल लैंग्वेज मॉडल (VLM)资讯 - AIBase

AI资讯

小型VLM黑马逆袭：Moondream 3.0仅2B激活参数，碾压GPT-5和Claude 4

Moondream3.0预览版以轻量高效的混合专家架构（总参9B，激活仅2B）引领视觉语言模型革新。它在复杂场景中表现卓越，多项基准测试超越GPT-5、Gemini和Claude4等主流模型。相比擅长验证码识别的2.0版，3.0版显著扩展了视觉推理能力，引发AI社区广泛关注。

11.3k 21 小时前

小型VLM黑马逆袭：Moondream 3.0仅2B激活参数，碾压GPT-5和Claude 4

颠覆传统！Mini-o3 开源模型实现超长视觉推理，深度思考不再是难题

近日，字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3，标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型（VLM）不同，Mini-o3在训练时限制了对话轮数为6轮，但在测试阶段却能将推理轮数扩展至数十轮，极大提升了视觉问题处理的能力。Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理，达到当前技术的顶尖水平。这得益于该模型的三个核心设计要素。首先，研究团队构建了一个名为 VisualProbe 的视觉探测数据集，包

9.9k 8 小时前

颠覆传统！Mini-o3 开源模型实现超长视觉推理，深度思考不再是难题

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米开源全新多模态大模型Xiaomi MiMo-VL-7B-2508，包含SFT和RL两个版本。新版本优化了输出模式，提升RL训练稳定性，在MMMU、ChartQA等多项评测中取得突破性进步。模型创新性地支持"思考模式"和"非思考模式"切换，前者展示完整推理过程，后者响应更快。在小米内部VLM Arena评分达1131.2分，全面超越前代版本，在同类开源模型中保持领先优势。

9.2k 3 小时前

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

人工智能助力医疗影像分析，减轻放射科医师负担

澳大利亚科研机构AEHRC正利用视觉语言模型(VLM)技术革新医疗影像分析，重点开发能自动生成胸部X光报告的AI系统。该技术通过海量医疗数据训练，已显著提升报告准确性，并尝试整合急诊记录进一步优化。研究团队强调AI旨在辅助而非替代医生，目前正与医院合作评估AI报告与人工报告的差异，未来将扩大临床试验验证技术普适性。核心突破在于缓解放射科医生短缺压力，同时确保技术应用的伦理安全性。

人工智能助力医疗影像分析，减轻放射科医师负担

AI产品

Proxy Lite

Proxy Lite

Proxy Lite 是一款开源的 3B 参数视觉语言模型（VLM），专注于网页自动化任务。

自动化工作流

VLM-R1

VLM-R1

VLM-R1 是一个稳定且通用的强化视觉语言模型，专注于视觉理解任务。

CogAgent

CogAgent

开源的端到端视觉语言模型（VLM）基础的GUI代理

RL4VLM

RL4VLM

通过强化学习微调大型视觉-语言模型作为决策代理

模型

HunyuanOCR

tencent

混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型，仅用10亿参数的轻量级设计，在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析，在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。

Transformers

Transformers支持多种语言

GLM 4.1V 9B Thinking GGUF

unsloth

GLM-4.1V-9B-Thinking 是基于视觉语言模型（VLM）开发的开源模型，旨在探索视觉语言模型推理能力的上限。它通过引入'思维范式'和强化学习，显著提升了模型能力，在10B参数的VLM中达到了领先水平。

Transformers

Transformers支持多种语言

GLM 4.1V 9B Thinking

unsloth

GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型，专门探索视觉语言模型推理能力的上限。它引入'思考范式'并利用强化学习显著增强能力，在10B参数的VLM中表现卓越，在多项基准任务中媲美甚至超越更大参数的模型。

Transformers

Transformers支持多种语言

GLM 4.1V 9B Thinking AWQ

dengcao

GLM-4.1V-9B-Thinking是一款强大的视觉语言模型（VLM），专注于多模态理解和推理，通过AWQ量化版本提供高效推理能力。

Transformers

GLM 4.1V 9B Thinking

zai-org

GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型，通过引入'思维范式'和强化学习显著提升了模型性能，在100亿参数的VLMs中达到了领先水平，在18项基准任务中与甚至超越了720亿参数的Qwen-2.5-VL-72B。

Transformers

Transformers支持多种语言

Llama Joycaption Beta One Hf Llava GGUF

Mungert

一个专为社区免费开放的图像字幕视觉语言模型（VLM），可用于训练扩散模型，支持多样化的图像风格和内容。

Transformers

NanoVLM 450M

lusxvr

nanoVLM是一款轻量级的视觉语言模型（VLM），专为高效训练和实验而设计。

Safetensors

NanoVLM

andito

nanoVLM 是一款轻量级的视觉语言模型（VLM），专为高效训练和实验而设计。

Safetensors

Holo1 3B

Hcompany

Holo1-3B是由HCompany开发的动作视觉语言模型(VLM)，专为Surfer-H网络代理系统设计，能够像人类用户一样与网页界面进行交互。

Transformers

Transformers英语

FlashVL 2B Dynamic ISS

FlashVL

FlashVL是一种优化视觉语言模型（VLMs）以用于实时应用的新方法，旨在实现超低延迟和高吞吐量，同时不牺牲准确性。

Transformers

Transformers支持多种语言

NanoVLM 222M

lusxvr

nanoVLM 是一款极简轻量级的视觉语言模型（VLM），专为高效训练和实验而设计。

Safetensors

VLM2Vec V2.0

VLM2Vec

VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型，通过训练视觉语言模型，为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。

Transformers

Transformers英语

Trillion LLaVA 7B

trillionlabs

Trillion-LLaVA-7B是一个能够理解图像的视觉语言模型（VLM），基于Trillion-7B-preview基础模型开发。

Transformers

Transformers支持多种语言

Eagle2.5 8B

nvidia

Eagle 2.5是一款前沿的视觉语言模型（VLM），专为长上下文多模态学习设计，支持处理长达512帧的视频序列和高分辨率图像。

Transformers

Transformers其他

NABLA VL

nablasinc

由NABLAS开发的日语视觉语言模型（VLM），支持图像、多图像及视频输入，适用于多种多模态任务。

Transformers

Transformers日语

VLM R1 Qwen2.5VL 3B OVD 0321

omlab

基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型，通过VLM-R1强化学习增强，支持开放词汇检测任务。

Safetensors

Safetensors英语

VLM R1 Qwen2.5VL 3B Math 0305

omlab

一款基于Qwen2.5-VL-3B-Instruct的视觉语言模型，经过数学增强和VLM-R1强化学习训练，专注于解决数学相关的视觉问答任务。

Safetensors

Safetensors英语

Poseless 3B

Menlo

Poseless-3B 是一种基于视觉语言模型（VLM）的机器人手部控制框架，能够直接将2D图像映射到关节角度，无需显式姿态估计。

Transformers

Qwen2.5VL 3B VLM R1 REC 500steps

omlab

基于Qwen2.5-VL-3B-Instruct的视觉语言模型，通过VLM-R1强化学习增强，专注于指代表达式理解任务。

Safetensors

Safetensors英语

Asagi 8B

MIL-UT

Asagi-8B是一个大规模的日语视觉与语言模型（VLM），基于广泛的日语数据集训练，整合了多样化的数据来源。

Transformers

Transformers日语

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2025AIBase

商务合作网站地图