Best 视觉推理 AI Tools & Models - Premium 视觉推理 News

AI News

商汤重磅开源 SenseNova-MARS：开启多模态自主推理新篇章

商汤科技开源多模态自主推理模型SenseNova-MARS，提供8B和32B版本。该模型是首个Agentic VLM，融合动态视觉推理与图文搜索，能理解图像并自主推理，推动多模态大模型发展。

9k 29 minutes ago

商汤开源 SenseNova-MARS：Agentic VLM 赋予 AI 独立“思考与行动”力

商汤科技开源SenseNova-MARS模型，具备动态视觉推理与图文搜索能力，模拟侦探逻辑实现AI自主执行。该模型含8B和32B版本，在MMSearch评测中以74.2分领先，性能超越GPT-5.2，标志着AI从理解到执行的重要跨越。

9.5k 29 minutes ago

谷歌 Gemini 3 Flash 升级：新增“Agentic Vision”让 AI 像专家一样深度看图

谷歌为Gemini 3 Flash模型推出“Agentic Vision”功能，突破传统AI视觉模型“单次猜测”局限。该功能使AI能主动探索图像细节，通过深度推理分析复杂内容，如远处路牌、电路图或微小文字，有效解决以往因一次性全局处理导致的细节丢失问题，实现更接近人类专家的图像理解能力。

12.2k 2 hours ago

谷歌 Gemini 3 Flash 升级：新增“Agentic Vision”让 AI 像专家一样深度看图

硅基生物的“视力瓶颈”：顶级大模型视觉推理竟难敌 6 岁孩童？

顶尖机构联合研究显示，AI视觉推理能力仍远落后于人类儿童。即便是领先的Gemini 3 Pro Preview，其表现仅略胜三岁幼儿，与六岁儿童认知水平仍有差距。

10.7k 16 hours ago

AI Products

Kimi-VL

高效的开源专家混合视觉语言模型，具备多模态推理能力。

AI模型

8.7k

QVQ-Max

一款先进的视觉推理模型，能分析图片和视频内容。

AI模型

15.9k

Aya Vision 32B

Aya Vision 32B 是一个支持多语言的视觉语言模型，适用于OCR、图像描述、视觉推理等多种用途。

AI模型

11k

Aya Vision 8B

8亿参数的多语言视觉语言模型，支持OCR、图像描述、视觉推理等功能

AI模型

10.4k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

商汤重磅开源 SenseNova-MARS：开启多模态自主推理新篇章

商汤开源 SenseNova-MARS：Agentic VLM 赋予 AI 独立“思考与行动”力

谷歌 Gemini 3 Flash 升级：新增“Agentic Vision”让 AI 像专家一样深度看图

硅基生物的“视力瓶颈”：顶级大模型视觉推理竟难敌 6 岁孩童？

AI Products

Kimi-VL

QVQ-Max

Aya Vision 32B

Aya Vision 8B

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-plus

qwen3-max

Qianfan-Lightning

qwen3-vl-235b-a22b-thinking

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Doubao-Seed-Translation

CodeV GGUF

MiMo Embodied 7B

Jan V2 VL Low GGUF

Jan V2 VL F32 AIO GGUF

ERNIE 4.5 VL 28B A3B Thinking AWQ 8bit

Qwen3 VL 12B Thinking Brainstorm20x NEO MAX GGUF

Qwen3 VL 4B Instruct

Qwen3 VL 30B A3B Instruct 1M GGUF

Qwen3 VL 32B Thinking 1M GGUF

Qwen3 VL 8B Thinking 1M GGUF

Qwen3 VL 32B Instruct 1M GGUF

Qwen3 VL 8B Instruct 1M GGUF

Qwen3 VL 4B Thinking 1M GGUF

Qwen3 VL 4B Instruct 1M GGUF

Qwen3 VL 2B Thinking 1M GGUF

Qwen3 VL 30B A3B Thinking GGUF

Qwen3 VL 235B A22B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 2B Thinking GGUF

Qwen3 VL 8B Thinking GGUF