Best 视觉模型 AI Tools & Models - Premium 视觉模型 News

AI News

编程与GUI双向通吃!Qwen3.7-Plus 登场，11小时自主闭环开发真实APP

阿里发布多模态大模型Qwen3.7-Plus，在文本能力基础上增强视觉-语言功能，统一为智能体基座。该模型融合GUI与CLI交互，实现从原型到软件工程的端到端自动化，并在Vision Arena榜单中表现强劲。

10.7k 14 minutes ago

编程与GUI双向通吃!Qwen3.7-Plus 登场，11小时自主闭环开发真实APP

全球首款全开源全模态物理AI大模型Cosmos3 发布，英伟达联手行业巨头成立宇宙联盟

英伟达发布全球首款全开源物理AI大模型Cosmos3，基于混合Transformer架构，融合视觉推理、世界生成与动作预测，将物理AI训练评估周期从数月缩短至数天，解决具身智能数据有限和仿真零散问题。

16.1k 14 minutes ago

全球首款全开源全模态物理AI大模型Cosmos3 发布，英伟达联手行业巨头成立宇宙联盟

Step 3.7 Flash 重磅发布：Agent 效率新时代真正到来

今日，开源模型Step3.7Flash正式发布，以Apache2.0协议开放权重，直击Agent时代效率、可靠性与多模态执行等核心痛点。在多项基准测试中表现突出：ClawEval-1.1获67.1分排名第一，SimpleVQA Search得79.2分居首，SWE-PRO以56.3分位列第二，V* Python得分高达95.3，展现了在Agent任务、代码生成及视觉执行等领域的实战能力。

20.5k 2 hours ago

物理AI时代的“视觉基建”：奥比中光如何重塑机器人感知？

奥比中光从传统硬件供应商转型为物理AI时代的“视觉基础设施提供商”，聚焦于解决机器人“看懂”物理世界的核心瓶颈。公司通过全栈式技术矩阵，精准卡位物理AI这一全球科技竞争新领域，致力于成为产业中台，推动大模型在真实空间中的落地应用。

12.9k 1 hours ago

AI Products

GPT Image 2 ORG

OpenAI下一代AI图像生成模型，可免费在线试用，用于多类型视觉创作。

图片生成

Caimera

Caimera利用AI生成时尚、电商和广告模型，提升视觉效果促进销售。

图片生成

5.9k

NewYouGo

NewYouGo是免费AI图像与视频生成平台，用先进模型秒速创建高质量视觉内容。

图片生成

6.4k

FastVLM

高效的视觉编码技术，提升视觉语言模型性能。

AI模型

16k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

MCP

Mcp Hfspace

mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器，支持图像生成、语音处理、视觉模型等多种AI功能，简化了与Claude Desktop的集成。

typescript

10.4k

3.5points

Opencv Mcp Server

OpenCV MCP Server是一个基于Python的计算机视觉服务，通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具，包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。

python

13.9k

2.5points