OpenAI将实时语音与视觉功能整合进ChatGPT主界面,用户按住麦克风图标即可边说话边查看地图、图表等视觉内容,文字转录同步显示。更新亮点包括多模态同屏交互(语音提问时实时展示相关图像并自动滚动文字),以及连续对话无中断(语音回复同时更新画面,延迟低于300毫秒),无需跳转页面。
Sam Altman与Jony Ive确认首款AI硬件原型完成,预计两年内上市。产品采用无屏设计,仅口袋大小,通过语音和上下文感知交互,强调静谧体验。Altman形容其手感如"山间湖畔小木屋",Ive追求极简美学,外观"简单、美丽、有趣"。
育碧推出首个可玩生成式AI项目“Teammates”,结合实时语音指令提升FPS游戏体验。玩家在反乌托邦未来扮演抵抗组织成员,潜入敌方基地寻找失踪队友。AI助手Jaspar通过自然语音交互,增强游戏沉浸感与互动性。
豆包输入法今日上线小米商店,但暂因维护无法下载。其核心亮点是搭载与豆包App同源的语音技术,支持方言、纯英文及中英混合输入,并优化轻声说话功能,适应多种交互环境。
提供语音、视频和聊天API,用于实时交互,加速应用增长。
Roark是一个声音AI的QA可观察性层,监控语音交互并进行测试和评估。
使用语音交互将想法转化为生产就绪的应用程序。
提高产品采纳率,部署我们的AI语音代理,作为专业的采纳专家,引领用户从入门到领悟。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
fixie-ai
Ultravox是一个多模态语音大语言模型,能够同时处理语音和文本输入,为语音交互场景提供强大支持。
AquaLabs
EchoLLaMA是一个多模态AI系统,能够将3D视觉数据转化为自然语音描述,同时支持通过语音输入进行交互对话。
maitrix-org
Voila是一个大型语音-语言基础模型家族,旨在提升人机交互体验,支持实时、低延迟的语音交互和多语言处理。
SeaLLMs
SeaLLMs-Audio是面向东南亚的大规模音频语言模型,支持印尼语、泰语、越南语、英语和中文五大语种,具备音频分析、语音交互等能力。
VITA-MLLM
VITA-1.5是一个多模态交互模型,旨在实现GPT-4o级别的实时视觉与语音交互能力。
NexaAIDev
Qwen2-Audio是先进的小规模多模态模型,支持音频与文本输入,无需依赖语音识别模块即可实现语音交互。
NexaAI
Qwen2-Audio 是一款先进的小规模多模态模型,支持音频和文本输入,无需ASR模块即可进行语音交互。
gpt-omni
Mini-Omni2是一款全交互式多模态模型,能理解图像、音频和文本输入,并与用户进行端到端的语音对话。
Qwen
Qwen2-Audio是通义千问大音频语言模型系列,支持语音聊天和音频分析两种交互模式。
somosnlp
支持西班牙语的多模态数据库交互工具,通过语音/文本指令生成SQL查询,并以最适合的模态(语音/文本/图像)返回结果
fnlp
SpeechGPT是一个具备内在跨模态对话能力的大型语言模型,能够感知和生成多模态内容,支持语音与文本的交互。
ElevenLabs官方MCP服务器,提供文本转语音和音频处理API交互能力
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
一个支持与Claude等LLM进行语音交互的MCP服务器,只需OpenAI API密钥和麦克风/扬声器即可实现实时语音对话。
该项目实现了Typecast API的MCP服务器,为MCP客户端提供标准化的语音合成服务交互方式。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
一个基于Model Context Protocol的AI代理服务器,提供系统提示和工具管理功能
一个基于Model Context Protocol (MCP)的Gmail邮件管理服务器,支持通过AI代理搜索、阅读、删除和发送邮件,需配合语音交互客户端使用。
一个Node.js客户端,用于集成远程MCP服务器,为Voiceflow代理提供工具支持,支持多种工具发现和Claude AI集成。
AllVoiceLab官方MCP服务器,支持文本转语音、视频翻译等强大API交互,为多款客户端提供语音生成、视频翻译及智能变声服务。
基于MCP协议的智能宠物伴侣应用,通过语音识别和自然语言处理实现与虚拟宠物的互动,支持多平台运行。
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。
一个专为AI模拟面试场景设计的MCP服务器,提供交互式语音面试练习功能
一个基于AI的面试角色扮演MCP服务器
IntelliGlow是一个基于MCP协议的智能照明系统,通过AI助手控制真实智能灯泡,支持语音命令、AI推理和直接硬件控制,实现自然语言交互和智能灯光管理。
Hume MCP服务器是一个AI协作工具,允许用户通过MCP客户端应用(如Claude Desktop、Cursor等)使用Octave文本转语音技术,实现智能语音合成与交互。