Best 视觉AI AI Tools & Models - Premium 视觉AI News

AI News

硅基生物的“思维广角”:Google DeepMind 推出 D4RT，赋予 AI 穿透时空的四维视觉

Google DeepMind发布D4RT模型，将三维空间与时间维度结合，使AI不仅能实时观察，还能理解动态场景的过去与未来，标志着计算机视觉进入新阶段。

14.7k 14 minutes ago

硅基生物的“思维广角”:Google DeepMind 推出 D4RT，赋予 AI 穿透时空的四维视觉

硅基生物的“视力瓶颈”：顶级大模型视觉推理竟难敌 6 岁孩童？

顶尖机构联合研究显示，AI视觉推理能力仍远落后于人类儿童。即便是领先的Gemini 3 Pro Preview，其表现仅略胜三岁幼儿，与六岁儿童认知水平仍有差距。

9.9k 1 hours ago

玩美移动推出全新 API，让虚拟试穿成为时尚新风潮！

玩美移动升级时尚API，新增手表、手链等九类虚拟试穿功能，利用生成式AI和计算机视觉技术，精准识别人体结构，为品牌和开发者提供全面的AI穿搭体验，推动时尚行业发展。

9.8k 3 hours ago

亿元战略注资!中国儒意联手爱诗科技，开启 AI 实时交互影像新时代

AI视频企业爱诗科技与港股上市公司中国儒意达成深度战略合作，获1420万美元战略投资。双方将在影视视觉设计、视效制作、智能生成宣传素材及流媒体资产优化等领域合作，中国儒意还将开放版权资源，助力爱诗科技释放IP创作潜力。

9.1k 1 hours ago

AI Products

Nano Banana & Nano Banana Pro

Nano Banana AI是先进图像生成与编辑器，用文本提示瞬间创惊艳视觉。

图片生成

6.2k

Free PDF to Video Generator

免费AI工具，无需注册，可将PDF快速转为含音频、动画和视觉效果的MP4视频

视频生成

5.9k

TapNow AI

新一代AI视觉创作引擎，可创作多类型专业级视觉内容。

AI设计工具

8.9k

Cuty AI

CUTY AI 是一体化视觉内容生成平台，用 AI 创图和视频

AI设计工具

6.3k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

MCP

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

typescript

6.4k

3.5points

Peekaboo

Peekaboo MCP是一个macOS工具，能够快速截取屏幕截图并通过AI分析内容，为AI助手提供视觉能力。

swift

6.6k

3.0points

Android Mcp

Android-MCP是一个轻量级开源项目，作为AI代理与Android设备之间的桥梁，通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试，无需依赖传统计算机视觉或预设脚本。

python

13.4k

2.5points

Opencv Mcp Server

OpenCV MCP Server是一个基于Python的计算机视觉服务，通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具，包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。

python

11.2k

2.5points