Best 计算机视觉 AI Tools & Models - Premium 计算机视觉 News

AI News

玩美移动推出全新 API，让虚拟试穿成为时尚新风潮！

玩美移动升级时尚API，新增手表、手链等九类虚拟试穿功能，利用生成式AI和计算机视觉技术，精准识别人体结构，为品牌和开发者提供全面的AI穿搭体验，推动时尚行业发展。

8.5k 2 hours ago

几分钟拼出视频AI应用！开源框架VideoPipe让CV落地如搭积木般简单

VideoPipe是一款开源视频分析框架，专注于计算机视觉AI算法的快速集成与落地。其核心创新在于采用可组合的管线设计，将复杂任务模块化，帮助开发者简化底层编码，聚焦业务逻辑，提升开发效率。

13.4k 6 hours ago

盲人也能“看见”街景？Google新AI系统让虚拟探索无障碍，科技向善迈出关键一步

谷歌推出StreetReaderAI原型系统，帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型，实现多模态AI驱动的实时对话式街景体验，突破传统语音播报局限，提升无障碍城市探索自由度。

13.4k 2 days ago

盲人也能“看见”街景？Google新AI系统让虚拟探索无障碍，科技向善迈出关键一步

亚马逊测试AI配送眼镜，包裹导航与风险检测一镜完成

亚马逊正为送货司机开发AI智能眼镜，通过解放双手提升配送效率与安全性。该眼镜集成AI传感、计算机视觉和摄像系统，可实时显示道路危险、任务信息及环境数据，支持包裹扫描、路线导航和送达确认等操作，减少司机对手机的依赖。

12.4k 17 hours ago

AI Products

Qwen3-VL-Reranker-2B

多模态重排序模型，支持文本、图像、视频等输入。

AI搜索

6.1k

InstanceAssemble

轻量级布局到图像生成框架，实现精准空间控制。

图片生成

CameraBench

用于理解任意视频中的相机运动的工具。

研究工具

9.8k

Describe Anything

一个基于深度学习的图像和视频描述模型。

图片生成

11.8k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

wan2.5-t2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

MCP

Opencv Mcp Server

OpenCV MCP Server是一个基于Python的计算机视觉服务，通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具，包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。

python

11.1k

2.5points