微软Copilot新增音频模式,基于MAI-Voice-1模型提供三种语音选择:情感模式支持富有表现力的自由表达;故事模式适合多角色讲故事;脚本模式则用于精确的文本朗读。
ElevenLabs于2025年8月20日推出全新Eleven v3 Alpha API,作为突破性文本转语音工具。该API支持70多种语言,能生成自然流畅且富有情感的语音,被誉为全球最具表现力的TTS模型。新增对话模式功能,支持开发者创建多角色语音交互。
OpenAI更新ChatGPT网页应用,新增语音速度调节功能,用户可通过滑块在0.5倍至2.0倍速间灵活调整,提升语音交互体验。该功能目前处于隐藏状态,尚未全面开放。
OpenAI宣布以1美元/年的象征性价格向美国联邦机构提供ChatGPT Enterprise服务,作为其政府拓展计划的重要举措。该计划与美国总务管理局合作,包含60天高级语音模式等附加功能。公司计划2025年初在华盛顿设立办事处,此前已获国防部2亿美元合同。目前OpenAI正进行新一轮融资谈判,估值或达5000亿美元,此前3月刚完成400亿美元融资创下科技公司融资纪录。
Genie-AI-Lab
Omni L1B3RT4S GENIE 是一个基于Qwen2.5-3B Instruct架构微调的AI助手,采用1,103个精灵角色的定制示例进行训练,具备独特的语音和忠诚度模式,能够为用户提供别具一格的对话体验。
Epikwhale
基于微软SpeechT5架构微调的泰卢固语文本转语音模型,针对泰卢固语独特的音素结构和文本模式进行了优化。
Qwen
Qwen2-Audio是通义千问大音频语言模型系列,支持语音聊天和音频分析两种交互模式。
speechbrain
这是一个基于LibriSpeech数据集预训练的端到端自动语音识别系统,支持流式和非流式模式,适用于英文语音识别。
Voicevox MCP Server是一个VOICEVOX兼容的语音合成服务器,通过MCP协议实现与AivisSpeech/VOICEVOX/COEIROINK的交互,支持Cursor等编辑器中的Claude 3.7代理模式语音合成。
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。