最好的视觉识别 AI工具模型_精选视觉识别资讯

AI资讯

三星联手谷歌！全球首款Gemini AI冰箱CES前夕曝光，食材识别+红酒管家全靠AI

三星推出全球首款集成谷歌Gemini大模型的智能冰箱，具备AI视觉识别功能，可自动识别食材、推荐食谱、生成购物清单和管理红酒收藏，重新定义厨房智能体验。

11.2k 11 小时前

智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放

智谱团队开源四项视频生成核心技术，包括GLM-4.6V视觉理解、AutoGLM设备控制、GLM-ASR语音识别和GLM-TTS语音合成模型，展示其在多模态领域的最新进展，为视频生成技术发展奠定基础。

12.9k 16 小时前

火山引擎发布豆包语音识别模型2.0提升多语种识别精度

火山引擎发布豆包语音识别模型2.0，显著提升推理能力，支持多语言和视觉信息识别。模型基于20亿参数音频编码器，优化复杂场景，提升专有名词、人名、地名及多音字的识别准确性。

16.2k 3 小时前

豆包手机助手预览版发布：AI彻底接管你的手机

字节跳动推出“豆包手机助手”技术预览版，定位为“手机第二大脑”，具备视觉识别、记忆存储和操作执行能力。其核心亮点是端侧记忆功能，所有数据本地加密存储，并可一键关闭，提升了隐私保护。

24.5k 11 小时前

AI产品

UI-TARS-desktop

基于UI-TARS（视觉语言模型）的GUI代理应用，可使用自然语言控制电脑。

个人助理

21.2k

理想同学

随时随地陪伴你的智能助手

个人助理

15.7k

Lloyd

视觉AI助手，提供视频信息识别与交流

视频编辑

10.4k

Revisit Anything

视觉位置识别通过图像片段检索

AI图像检测识别

9.6k

模型

GPT-4.1 mini

Openai

$2.8

输入tokens/百万

$11.2

输出tokens/百万

上下文长度

Gemini 2.0 Flash-Lite

Google

$0.49

输入tokens/百万

$2.1

输出tokens/百万

上下文长度

Grok 4 Fast

Xai

$1.4

输入tokens/百万

$3.5

输出tokens/百万

上下文长度

Claude 3 Opus

Anthropic

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Gemini 2.0 Flash

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

Claude Haiku 4.5

Anthropic

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash

Google

$2.1

输入tokens/百万

$17.5

输出tokens/百万

上下文长度

Claude Sonnet 4.5

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Claude 3 Sonnet

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash-Lite

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

qwen3-vl-plus

Alibaba

输入tokens/百万

$10

输出tokens/百万

256

上下文长度

qwen3-vl-235b-a22b-thinking

Alibaba

输入tokens/百万

$20

输出tokens/百万

上下文长度

qwen-image-edit

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

输入tokens/百万

$240

输出tokens/百万

上下文长度

Doubao-Seed-Translation

Bytedance

$1.2

输入tokens/百万

$3.6

输出tokens/百万

上下文长度

wan2.5-t2i-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

wan2.5-t2v-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

wan2.5-i2v-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-omni-flash-realtime

Alibaba

$3.9

输入tokens/百万

$15.2

输出tokens/百万

上下文长度

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

输入tokens/百万

$12.7

输出tokens/百万

上下文长度

MCP

Opencv Mcp Server

OpenCV MCP Server是一个基于Python的计算机视觉服务，通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具，包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。

python

10.7k

2.5分