最好的视觉语言模型 AI工具模型_精选视觉语言模型资讯

AI资讯

AI 视觉模型深入“搬砖”一线：Bedrock Robotics 联手 AWS 破解建筑业用工荒

初创公司Bedrock Robotics与AWS合作，利用视觉语言模型（VLMs）解决了重型设备自动驾驶系统开发中的关键难题——海量视频数据标注。传统方法依赖人工标注数百万小时监控视频，而新技术显著提升了施工自动化系统的训练效率。

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0，在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异，部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力，支持在同一条音轨中生成语音、音效和音乐，用户通过自然语言指令即可调整音色、语速等参数。

18.4k 1 小时前

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

DeepSeek 发布 OCR 2：视觉 Token 消耗锐减 80%，文档解析力超越 Gemini 3 Pro

DeepSeek发布全新视觉编码器DeepSeek OCR2，在文档处理和图像识别领域取得突破。该模型模拟人类视觉的灵活扫描模式，颠覆传统视觉模型处理逻辑。通过引入全新架构，弃用传统CLIP组件，采用轻量级语言模型，实现了根据内容灵活聚焦的特性。

15.9k 1 天前

DeepSeek 发布 OCR 2：视觉 Token 消耗锐减 80%，文档解析力超越 Gemini 3 Pro

一张打印纸竟能“劫持”自动驾驶：视觉语言模型暴露严重安全漏洞

自动驾驶汽车依赖路标识别，但加州大学研究揭示其致命弱点：攻击者通过打印特定文本的标识，就能利用视觉语言模型漏洞，诱导车辆做出危险决策，甚至驶向行人。这种“CHAI”攻击暴露了AI系统对视觉指令的过度依赖风险。

11k 5 小时前

AI产品

FastVLM

高效的视觉编码技术，提升视觉语言模型性能。

AI模型

15.2k

CambioML

AnyParser是首个具有准确性和速度的文档解析LLM，可从PDF、PowerPoint和图片中精确提取文本、表格、图表和布局信息。

文档

10k

Kimi-VL

高效的开源专家混合视觉语言模型，具备多模态推理能力。

AI模型

9.3k

Gemini Robotics

基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

AI模型

13.7k

模型

GPT-4.1 mini

Openai

$2.8

输入tokens/百万

$11.2

输出tokens/百万

上下文长度

Gemini 2.0 Flash-Lite

Google

$0.49

输入tokens/百万

$2.1

输出tokens/百万

上下文长度

Grok 4 Fast

Xai

$1.4

输入tokens/百万

$3.5

输出tokens/百万

上下文长度

o3-mini

Openai

$7.7

输入tokens/百万

$30.8

输出tokens/百万

200

上下文长度

GPT-5 Codex

Openai

输入tokens/百万

输出tokens/百万

上下文长度

Claude 3 Opus

Anthropic

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Gemini 2.0 Flash

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

Claude Haiku 4.5

Anthropic

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash

Google

$2.1

输入tokens/百万

$17.5

输出tokens/百万

上下文长度

Claude Sonnet 4.5

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Claude 3 Sonnet

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash-Lite

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

qwen-image-plus

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-coder-plus

Alibaba

输入tokens/百万

$16

输出tokens/百万

上下文长度

qwen3-vl-plus

Alibaba

输入tokens/百万

$10

输出tokens/百万

256

上下文长度

qwen3-vl-235b-a22b-thinking

Alibaba

输入tokens/百万

$20

输出tokens/百万

上下文长度

wan2.5-i2i-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Qianfan-Lightning

Baidu

输入tokens/百万

输出tokens/百万

128

上下文长度

qwen3-max

Alibaba

输入tokens/百万

$24

输出tokens/百万

256

上下文长度

qwen-image-edit

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

MCP

Opencv Mcp Server

OpenCV MCP Server是一个基于Python的计算机视觉服务，通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具，包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。

python

13.5k

2.5分