Best Vision模型 AI Tools & Models - Premium Vision模型 News

AI News

IBM发布Granite 4.0 3B Vision：企业级文档数据提取的新利器

IBM发布Granite 4.0 3B Vision视觉语言模型，拥有30亿参数，专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题，在复杂表格、扫描件及多模态布局文档中表现突出，通过结合视觉理解与语言生成，精准识别并提取关键信息。

16.6k 7 hours ago

IBM发布Granite 4.0 3B Vision：企业级文档数据提取的新利器

单图秒变 3D！苹果发布 LiTo 大模型：光影质感拉满，Vision Pro 的神队友来了？

苹果发布LiTo模型，仅凭单张2D图像即可重建高精度3D对象，解决了光影一致性难题，实现物理级真实感，有望颠覆3D重建领域。

13.9k 2 hours ago

单图秒变 3D！苹果发布 LiTo 大模型：光影质感拉满，Vision Pro 的神队友来了？

谷歌 Gemini 3 Flash 升级：新增“Agentic Vision”让 AI 像专家一样深度看图

谷歌为Gemini 3 Flash模型推出“Agentic Vision”功能，突破传统AI视觉模型“单次猜测”局限。该功能使AI能主动探索图像细节，通过深度推理分析复杂内容，如远处路牌、电路图或微小文字，有效解决以往因一次性全局处理导致的细节丢失问题，实现更接近人类专家的图像理解能力。

19.2k 48 minutes ago

谷歌 Gemini 3 Flash 升级：新增“Agentic Vision”让 AI 像专家一样深度看图

Win11 Copilot 直接送“满血”GPT-5.1，深度思考功能免费解锁！

微软11月29日向Windows 11 Copilot用户推送更新：免费开放GPT-5.1模型，一键启用原付费“Think Deeper”深度推理功能。新增“Labs”实验区，首批上线WinUI 3“Vision”实时画面解析组件，后续将逐步加入3D生成、音频表达等功能。“Actions”特性正在内测中。

14.4k yesterday

AI Products

Aya Vision 32B

Aya Vision 32B 是一个支持多语言的视觉语言模型，适用于OCR、图像描述、视觉推理等多种用途。

AI模型

10.9k

Aya Vision

Aya Vision 是 Cohere 推出的多语言多模态视觉模型，旨在提升多语言场景下的视觉和文本理解能力。

AI模型

11.3k

VisionAgent

VisionAgent是一个用于生成代码以解决视觉任务的库，支持多种LLM提供商。

代码助手

11.6k

Vision Arena

Vision Arena是一个面向计算机视觉领域的开源模型测试平台

AI图像检测识别

12.4k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

IBM发布Granite 4.0 3B Vision：企业级文档数据提取的新利器

单图秒变 3D！苹果发布 LiTo 大模型：光影质感拉满，Vision Pro 的神队友来了？

谷歌 Gemini 3 Flash 升级：新增“Agentic Vision”让 AI 像专家一样深度看图

Win11 Copilot 直接送“满血”GPT-5.1，深度思考功能免费解锁！

AI Products

Aya Vision 32B

Aya Vision

VisionAgent

Vision Arena

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen3-max

wan2.5-i2i-preview

qwen-image-edit

Videomae Tiny 92 Kinetics Binary Finetuned Xd Violence

Rope_vit_reg8_so150m_p14_swiglu_rms_avg_capi

Vit_base_patch16_dinov3.lvd1689m

MonkeyOCR Pro 1.2B Vision GGUF

Babes By Stable Yogi Pony V60 Fp16 Sdxl

Dinov3 Vitb16 Pretrain Lvd1689m

Command A Vision 07 2025

BiRefNet GGUF

VisionReasoner 7B

Style_250412.vit_base_patch16_siglip_384.v2_webli

Vit Base Oxford Iiit Pets

VLAA Thinker Qwen2.5VL 7B

Coco_instance_eomt_large_1280

Ade20k_panoptic_eomt_giant_1280

Ade20k_panoptic_eomt_large_1280

Ade20k_panoptic_eomt_large_640

Ade20k_panoptic_eomt_giant_640

Coco_panoptic_eomt_giant_640

Coco_panoptic_eomt_large_1280

Cityscapes_semantic_eomt_large_1024