Best 多模态感知 AI Tools & Models - Premium 多模态感知 News

AI News

Soul亮相WAIC2026，发布SoulX多模态交互大模型与AI硬件B Soul

Soul在WAIC2026上发布AI硬件B Soul，展示实时多模态交互与情绪感知应用。CTO陶明表示，公司已从社交App进化为聚焦情绪感知、交互技术和AI模型融合的生态型公司，坚持自研交互大模型路线，区别于通用大模型。

11.2k 6 minutes ago

Meta被曝研发全天候AI眼镜：支持超级感知与无感音视频捕捉

Meta正研发一款全天候多模态感知智能眼镜原型，支持“超级感知”，每隔几秒自动录音和拍照，用户可通过Meta AI对获取内容即时提问。为消除隐私顾虑，设备不保存原始音视频，只提取元数据上传。

15.5k 3 hours ago

谷歌I/O大会宣布Gemini接入沃尔沃新车EX60摄像头，解锁多模态视觉感知

谷歌I/O大会上，谷歌与沃尔沃宣布合作：AI助手Gemini将接入沃尔沃纯电SUV EX60的外部摄像头，加速获取视觉与移动感知能力。此举标志着AI大模型与智能汽车硬件的深度融合取得实质性突破，得益于沃尔沃原生搭载谷歌嵌入式车载系统。

10.4k 5 days ago

腾讯混元等联合发布首个古文字OCR评测基准 Chronicles-OCR

腾讯混元联合多家机构发布业界首个中国古文字识别评测基准Chronicles-OCR，覆盖“七体之变”完整演化轨迹。该基准旨在衡量多模态大语言模型对跨越三千年汉字视觉分布漂移的感知能力，推动数字人文领域技术突破。

10.8k 4 hours ago

AI Products

Step-R1-V-Mini

全新多模态推理模型，支持图文输入、文字输出，具备高精度图像感知与复杂推理能力。

AI模型

11.2k

Griffon

高分辨率多模态感知 LVLM

AI图像检测识别

11.4k

VCoder

VCoder是一款视觉感知模型,可提高多模态大型语言模型在对象级视觉任务上的性能。

AI模型

9.7k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

Soul亮相WAIC2026，发布SoulX多模态交互大模型与AI硬件B Soul

Meta被曝研发全天候AI眼镜：支持超级感知与无感音视频捕捉

谷歌I/O大会宣布Gemini接入沃尔沃新车EX60摄像头，解锁多模态视觉感知

腾讯混元等联合发布首个古文字OCR评测基准 Chronicles-OCR

AI Products

Step-R1-V-Mini

Griffon

VCoder

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Gemma 3 12b It Qat Mlx Mxfp4

Qwen3 VL 12B Thinking Brainstorm20x NEO MAX GGUF

Qwen3 VL 2B Thinking GGUF

Qwen3 VL 8B Thinking GGUF

Qwen3 VL 4B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 4B Instruct GGUF

Qwen3 VL 2B Instruct GGUF

Next 12b

LFM2 VL 3B

Qwen3 VL 2B Instruct

Qwen3 VL 30B A3B Instruct AWQ

Qwen3 VL 8B Thinking AWQ 8bit

PaDT_Pro_3B

VideoChat R1_5 7B

Isaac 0.1

Keye VL 1_5 8B

TowerVision 9B

Gemma 3 270m It Qat

Qwen2.5 Omni 3B GGUF