Best 多模态交互技术 AI Tools & Models - Premium 多模态交互技术 News

AI News

声智科技推全球首款“多模态AI时尚耳机”！声视融合，Kickstarter首发开启随身感知新时代

声智科技推出全球首款多模态AI时尚耳机，融合视觉与声学交互，突破传统耳机局限。该产品定位为“随身感知工具”，通过声视融合技术实现“看得见、听得清、回得准”，即将在Kickstarter全球首发。

12.9k 1 days ago

造硬件造数据:诺亦腾机器人完成 Pre-A+ 轮融资，加速攻克具身智能数据荒

诺亦腾机器人完成Pre-A+轮融资，由启明创投领投，多家机构参投及追加，实现超额认购。公司累计融资已达数亿元，资金将用于具身智能多模态数据的采集、处理与交互技术研发。

10.1k 5 hours ago

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

Meta发布SAM Audio，全球首个统一多模态音频分离模型。用户可通过点击视频中物体、输入关键词或圈定时间片段，一键提取目标声音或过滤噪音，实现“用眼睛听声音”。该技术首次模拟人类自然感知声音的方式，支持看、说等多种交互。

12.2k 21 hours ago

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

李飞飞World Labs推出Marble 3D世界模型公测版，支持文本、图像、视频等多模态输入，快速生成可交互虚拟宇宙，助力开发者探索AI技术应用。

21.6k 2 days ago

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

声智科技推全球首款“多模态AI时尚耳机”！声视融合，Kickstarter首发开启随身感知新时代

造硬件造数据:诺亦腾机器人完成 Pre-A+ 轮融资，加速攻克具身智能数据荒

Meta发布SAM Audio：全球首个支持“点击分离声音”的多模态音频模型，一键提取吉他声、人声或狗叫

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-max

Qianfan-Lightning

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

qwen-image-edit

InternVL3_5 4B HF