Best 多模态识别 AI Tools & Models - Premium 多模态识别 News

AI News

DeepSeek 开启识图模式灰度测试，多模态视觉理解能力正式落地

DeepSeek在发布V4版五天后，灰度测试多模态识图功能，新增“识图模式”入口，支持图片理解。实测显示，其在基础视觉理解、复杂人物和环境识别上表现优异，标志着从文本向视觉交互的跨越。

11.2k 19 minutes ago

DeepSeek 灰测 “识图模式”，实现多模态图片理解功能

DeepSeek正在灰度测试“识图模式”，该模式具备多模态识别能力，能进行深度图像分析与描述，而不仅是OCR文字识别。用户上传图片后可获得快速响应，有网友形容速度如闪电般迅速。

15k 19 minutes ago

谷歌确认Gemini赋能新版Siri:苹果情境感知功能定档2026年发布

谷歌与苹果达成云服务合作，将基于Gemini模型开发下一代Apple Foundation机型，计划于2026年推出全新Siri。该合作旨在结合Gemini的多模态处理能力与苹果私有云架构，提升Siri在复杂指令和跨应用识别方面的表现。

11.8k yesterday

蚂蚁集团斩获计算机视觉顶会冠军，AIGC检测实现“实战级”跃迁

蚂蚁集团在CVPR 2026 NTIRE挑战赛中，于“复杂真实场景鲁棒性样本测试”和“人脸增强异常检测”两赛道夺冠。该成果有助于提升支付、内容审核、金融认证等场景的风险识别能力。面对深度伪造与AIGC滥用加剧、检测模型在真实场景及多模态大模型迭代中准确率不足的挑战，这一突破为应对提供了重要技术支撑。

20k 11 hours ago

AI Products

R1-Omni

R1-Omni 是一个结合强化学习的全模态情绪识别模型，专注于提升多模态情绪识别的可解释性。

情感陪伴

14.5k

Llama-3.2-90B-Vision

多模态大型语言模型，优化视觉识别和图像推理。

AI模型

9.2k

NavAIGuide

多模态智能框架，识别页面任务并执行动作。

AI Agents

9.7k

SeamlessM4T

一款基于多模态模型的语音翻译产品，支持近100种语言的自动语音识别、语音翻译、文本翻译、语音合成等功能。

AI翻译

12.2k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

DeepSeek 开启识图模式灰度测试，多模态视觉理解能力正式落地

DeepSeek 灰测 “识图模式”，实现多模态图片理解功能

谷歌确认Gemini赋能新版Siri:苹果情境感知功能定档2026年发布

蚂蚁集团斩获计算机视觉顶会冠军，AIGC检测实现“实战级”跃迁

AI Products

R1-Omni

Llama-3.2-90B-Vision

NavAIGuide

SeamlessM4T

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-max

Qianfan-Lightning

qwen3-vl-235b-a22b-thinking

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Everos

Ming Flash Omni Preview

Ultravox V0_6 Llama 3_1 8b

Qwen2 VL OCR 2B Instruct GGUF

Phi 4 Mm Inst Asr Singlish

Llama3.2 11B Vision Instruct INT4 GPTQ

AV HuBERT MuAViC Ru

Finedefics

Llama 3.2 11b Vision R1 Distill

EraX VL 7B V2.0 Preview

Llava 7b 1.5 Rfrd

Qwen2 Audio 7B GGUF

StructTable InternVL2 1B

Qwen2 Wildfire 2B

Llama 3.2 11B Vision Instruct

Llama 3.2 90B Vision Instruct

Llama 3.2 90B Vision

Llama 3.2 11B Vision

AV HuBERT

Qwen_vl_guidance