三星将AI搜索引擎Perplexity深度集成至Galaxy AI系统,采用开放的多智能体策略,通过语音唤醒和专属指令,提升手机AI交互体验,重新定义智能手机交互基准。
Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜,以生成式AI和AI智能体为核心,打造革命性操作系统和界面。该眼镜采用端侧多模态模型,支持语音、视觉和触控等多种交互方式,旨在提供全新用户体验。
三星确认其下一代AR眼镜将于2026年面世,定位为“多模态AI载体”。核心卖点在于深度沉浸的多模态AI体验,通过结合语音、视觉等多种交互方式,提供智能辅助功能。
支付宝与小米合作,在智能眼镜上线停车缴费功能。用户通过语音或眼神交互即可支付,无需使用手机。该功能基于蚂蚁集团的GPASS和AHA技术,简化了停车流程。
Step-Audio是一个开源智能语音交互框架,支持多语言对话、情感语调和语音克隆等功能。
首个面向语境智能的人类级实时交互系统,支持多情感、多风格语音交互。
实时语音交互的人工智能对话系统。
让应用通过语音与文本的转换实现智能交互。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Anthropic
$105
$525
200
$7
$35
Google
$2.1
$17.5
$0.7
Alibaba
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
128
$0.15
$1.5
256
Xai
$1.4
$10.5
$1.75
$14
400
Tencent
24
$2.4
$12
8
32
AllVoiceLab官方MCP服务器,支持文本转语音、视频翻译等强大API交互,为多款客户端提供语音生成、视频翻译及智能变声服务。
IntelliGlow是一个基于MCP协议的智能照明系统,通过AI助手控制真实智能灯泡,支持语音命令、AI推理和直接硬件控制,实现自然语言交互和智能灯光管理。
Hume MCP服务器是一个AI协作工具,允许用户通过MCP客户端应用(如Claude Desktop、Cursor等)使用Octave文本转语音技术,实现智能语音合成与交互。