英伟达发布全模态理解模型OmniVinci,在基准测试中比顶尖模型高出19.05分,仅用1/6训练数据就实现卓越性能。该模型旨在让AI系统同时理解视觉、音频和文本,模拟人类多感官感知世界。
FigureAI发布第三代通用人形机器人Figure03,通过软硬件全面升级,配备新型感知系统与手部设计,可无缝对接Helix人工智能系统。其视觉系统具备高帧率与广视野,能在复杂环境中执行人类日常任务并实现自主学习,面向家庭和商业场景提供智能解决方案。
阿里国际开源新一代多模态大模型Ovis2.5,专注于原生分辨率视觉感知、深度推理和高性价比场景设计。该模型在OpenCompass评测中综合得分显著提升,保持同类开源模型SOTA水平,并推出两个不同参数规模版本。
阿里国际数字贸易集团AI团队发布多模态大语言模型Ovis2.5,提供9B和2B两种参数规模。该模型定位经济型视觉推理解决方案,具备原生分辨率感知能力,采用NaViT视觉编码器保留图像细节和全局结构,确保高质量视觉处理。
下一代原生GUI代理模型,能够无缝与图形用户界面交互。
先进多模态大型语言模型系列
零样本视觉跟踪模型,具有运动感知记忆。
自主多模移动设备代理
Lamapi
Next 12B是基于Gemma 3的120亿参数多模态视觉语言模型,是土耳其最先进的开源视觉语言模型。该模型在文本和图像理解方面表现出色,具备先进的推理和上下文感知多模态输出能力,特别提供专业级的土耳其语支持,同时具备广泛的多语言能力。
QuantTrio
Qwen3-VL-32B-Thinking-AWQ是基于Qwen/Qwen3-VL-32B-Thinking模型的量化版本,是通义系列中最强大的视觉语言模型。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文和视频理解,适用于图像文本到文本的转换任务。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
unsloth
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen
Qwen3-VL是通义系列最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、增强的空间和视频理解能力,以及强大的智能体交互能力。该模型为2B参数的思考版,专门增强推理能力。
Qwen3-VL-2B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能与原始BF16模型几乎相同。该模型具备卓越的文本理解和生成能力、深入的视觉感知与推理能力、长上下文支持以及增强的空间和视频动态理解能力。
Qwen3-VL是通义系列最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频理解能力等方面全面升级,具备卓越的多模态交互能力。
Qwen3-VL-32B-Instruct-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化,性能指标与原始BF16模型几乎相同。该模型具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。
Qwen3-VL-32B-Thinking-FP8是Qwen系列中最强大的视觉语言模型的FP8量化版本,采用块大小为128的细粒度fp8量化技术,性能指标与原始BF16模型几乎相同。该模型具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的全面升级,具备卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、更强的空间和视频动态理解能力,以及更出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频理解能力,以及出色的智能体交互能力。
ticoAg
Qwen3-VL-30B-A3B-Instruct-AWQ是Qwen3-VL系列的量化版本,具备强大的视觉语言处理能力,支持图像理解、视频分析、多模态推理等任务。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面均有显著提升。
cpatonn
Qwen3-VL是通义系列最强大的视觉语言模型,实现全方位综合升级,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义大模型系列最强大的视觉语言模型,在文本理解、视觉感知、空间理解、视频处理等方面全面升级,提供卓越的多模态能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力,支持长上下文处理和视频理解,提供指令优化版本。
Qwen3-VL-30B-A3B-Thinking-AWQ 是基于 Qwen/Qwen3-VL-30B-A3B-Thinking 模型量化后的版本,是通义系列中最强大的视觉语言模型。该版本在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面进行了全面升级。
Qwen3-VL-30B-A3B-Instruct-AWQ是基于Qwen/Qwen3-VL-30B-A3B-Instruct的量化版本,具备强大的视觉语言处理能力,在文本理解、视觉感知、推理等多方面表现出色。
Unsplash智能MCP服务器是为AI代理设计的专业图库集成方案,提供智能搜索、自动归因和项目感知的图片管理功能,简化开发者的视觉内容获取流程。
OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的项目,支持视觉感知、LLM规划、动作执行等功能,实现用户界面的深度理解和精准交互。