特斯拉在华完成车机语音大模型服务备案,将接入生成式AI,提升语音交互智能化水平,符合监管要求,为车主带来更自然的座舱体验。
Perplexity发布Mac端AI助手应用,能直接访问文件系统和原生应用,支持文本与语音交互,通过快捷键唤醒,可感知用户当前窗口并主动提供操作建议,推动AI交互向操作系统深度集成。
特斯拉2026年春季软件更新带来多项AI与自动驾驶升级。核心亮点包括:车载AI助手Grok支持“嘿,Grok”语音唤醒和“再见”关闭,新增位置感知提醒功能,提升了交互便捷性与智能化水平。
LPM1.0模型发布,能通过单张参考图实时生成人物说话、聆听及唱歌视频。其核心突破在于多模态处理,可同步整合文本、音频与图像,生成唇形精准同步、表情细腻且情绪过渡自然的动态画面。该模型支持接入ChatGPT等主流语音AI,将传统语音对话升级为具备视觉反馈的实时交互。
Roark是一个声音AI的QA可观察性层,监控语音交互并进行测试和评估。
AI助手,通过语音和动画指导用户,提升网站交互体验。
构建高级语音AI,由LLM提供支持,实现人类般的交互体验。
Play.ai 是一个基于人工智能的语音交互平台,提供个性化的对话体验。
Anthropic
$105
输入tokens/百万
$525
输出tokens/百万
200
上下文长度
Google
$2.1
$17.5
1k
$0.7
$2.8
Alibaba
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
$0.15
$1.5
256
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。
一个专为AI模拟面试场景设计的MCP服务器,提供交互式语音面试练习功能
IntelliGlow是一个基于MCP协议的智能照明系统,通过AI助手控制真实智能灯泡,支持语音命令、AI推理和直接硬件控制,实现自然语言交互和智能灯光管理。
Hume MCP服务器是一个AI协作工具,允许用户通过MCP客户端应用(如Claude Desktop、Cursor等)使用Octave文本转语音技术,实现智能语音合成与交互。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
这是一个MCP服务器项目,提供通过WhatsApp发送接收语音消息并与AI客户端Claude Desktop交互的功能。
Vavicky MCP服务器是一个完整的语音AI代理平台实现,提供用户管理、API密钥配置、助手管理、Twilio集成和通信功能,支持通过Claude桌面客户端进行交互。