Best 视觉感知 AI Tools & Models - Premium 视觉感知 News

AI News

英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出19.05分

英伟达发布全模态理解模型OmniVinci，在基准测试中比顶尖模型高出19.05分，仅用1/6训练数据就实现卓越性能。该模型旨在让AI系统同时理解视觉、音频和文本，模拟人类多感官感知世界。

全新一代人形机器人 Figure 03 正式发布，开启智能家居新时代

FigureAI发布第三代通用人形机器人Figure03，通过软硬件全面升级，配备新型感知系统与手部设计，可无缝对接Helix人工智能系统。其视觉系统具备高帧率与广视野，能在复杂环境中执行人类日常任务并实现自主学习，面向家庭和商业场景提供智能解决方案。

9.6k 2 days ago

阿里国际发布多模态大模型 Ovis2.5，推动视觉感知与深度推理新进展

阿里国际开源新一代多模态大模型Ovis2.5，专注于原生分辨率视觉感知、深度推理和高性价比场景设计。该模型在OpenCompass评测中综合得分显著提升，保持同类开源模型SOTA水平，并推出两个不同参数规模版本。

12.6k 1 days ago

阿里国际数字贸易集团AI团队发布Ovis2.5:经济型视觉推理模型新突破

阿里国际数字贸易集团AI团队发布多模态大语言模型Ovis2.5，提供9B和2B两种参数规模。该模型定位经济型视觉推理解决方案，具备原生分辨率感知能力，采用NaViT视觉编码器保留图像细节和全局结构，确保高质量视觉处理。

12.7k 1 hours ago

AI Products

UI-TARS-7B-SFT

下一代原生GUI代理模型，能够无缝与图形用户界面交互。

自动化工作流

10.4k

InternVL2_5-78B

先进多模态大型语言模型系列

AI模型

10.6k

SAMURAI

零样本视觉跟踪模型，具有运动感知记忆。

AI模型

10.4k

Mobile-Agent

自主多模移动设备代理

AI设计工具

27.4k

Models

Qwen3 VL 30B A3B Instruct 1M GGUF

unsloth

Qwen3-VL是通义系列中最强大的视觉语言模型，具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。

AI News

英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出19.05分

全新一代人形机器人 Figure 03 正式发布，开启智能家居新时代

​阿里国际发布多模态大模型 Ovis2.5，推动视觉感知与深度推理新进展

阿里国际数字贸易集团AI团队发布Ovis2.5:经济型视觉推理模型新突破

AI Products

UI-TARS-7B-SFT

InternVL2_5-78B

SAMURAI

Mobile-Agent

Models

Qwen3 VL 30B A3B Instruct 1M GGUF

Qwen3 VL 32B Thinking 1M GGUF

Qwen3 VL 8B Thinking 1M GGUF

Qwen3 VL 8B Instruct 1M GGUF

Qwen3 VL 4B Instruct 1M GGUF

Qwen3 VL 2B Thinking 1M GGUF

Qwen3 VL 235B A22B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 2B Thinking GGUF

Qwen3 VL 8B Thinking GGUF

Qwen3 VL 32B Thinking GGUF

Qwen3 VL 32B Instruct GGUF

Qwen3 VL 8B Instruct GGUF

Qwen3 VL 4B Instruct GGUF

Qwen3 VL 32B Thinking GGUF

Qwen3 VL 32B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 30B A3B Thinking GGUF

Qwen3 VL 8B Instruct GGUF

Qwen3 VL 8B Thinking GGUF

MCP

Unsplash Smart Mcp Server

OmniMCP

阿里国际发布多模态大模型 Ovis2.5，推动视觉感知与深度推理新进展