Google推出Gemini 2.5 Flash与Pro文本转语音预览模型,全面升级5月旧版。新模型支持24种语言的多角色对话,具备“情绪级”表达和自适应节奏功能,用户可一键切换“欢快乐观”或“阴郁严肃”等音色。开发者现可在Google AI Studio与Playground免费测试,预计2025年第一季度投入生产,适用于有声书、游戏NPC及本地化课程等场景。
微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
巨人网络与清华大学联合发布多方言语音合成大模型DiaMoE-TTS,实现技术突破并全面开源数据代码。该框架旨在解决方言TTS依赖海量专有数据的行业难题,推动方言语音合成的公平普惠发展。
B站Index团队开源文本转语音系统IndexTTS-2.0,该系统具备情感可控和时长可调两大特点,标志着零样本TTS技术实现重要突破。通过引入时间编码机制等核心创新,有效解决了语音合成领域的情感表达和时长控制难题,推动技术实用化进程。
先进的文本转语音模型,提供高质量的语音合成服务。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
尼泊尔首个AI内容创作平台,支持TTS、STT、文本转图像,有500+语音、100+语言。
Nexa SDK可在数分钟内将AI模型部署到任何设备上,快速、私密且适用于多场景。
Alibaba
-
输入tokens/百万
输出tokens/百万
上下文长度
$2.4
$12
8
$1.6
$10
openbmb
VoxCPM是一款创新的免分词器端到端文本转语音(TTS)系统,通过在连续空间中对语音进行建模,克服了离散分词的局限性。它具备上下文感知语音生成和逼真零样本语音克隆两大核心能力,能够根据文本内容自动调整韵律和风格,并仅需一个简短的参考音频即可克隆说话者的音色、口音和情感。
nari-labs
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,能够根据对话上下文进行调整,实现自然流畅的对话体验。
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,专为自然对话场景设计。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
notmax123
Zonos-v0.1 是一款领先的开源文本转语音(TTS)模型,基于超过20万小时的多语言语音数据训练,在表现力和质量上可与顶级TTS供应商相媲美。支持零样本语音克隆、多语言合成和精细的音频控制。
NeuCodec的ONNX编译版本解码器,专为设备端文本转语音(TTS)设计的轻量级音频解码模型,能够高效地将编码后的音频特征转换为高质量音频信号。
snorbyte
snorTTS-Indic-v0 是一个多语言印度语语音合成(TTS)模型,能够生成九种印度语言的语音。
unsloth
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型(Speech-LLM),专为生成高质量、富有情感的语音而设计。
kyutai
京都台文本转语音(TTS)模型是一款用于流式文本转语音的模型,支持实时语音生成和多语言处理。
re-skill
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型,专为实现高质量、富有情感的文本转语音功能而设计。
salihfurkaan
VoxPolska Auralis是一款先进的波兰语文本转语音(TTS)模型,采用前沿深度学习技术,能够精准捕捉波兰语的细微差别和语调,将书面文本转化为自然、流畅且富有表现力的语音。
cocktailpeanut
OpenAudio S1是一款领先的文本转语音(TTS)模型,基于超过200万小时的多语言音频数据训练,支持13种常见语言,提供高质量的语音合成服务,并支持丰富的情感、语调和特殊效果标记。
Llasa是一个基于LLaMA的文本转语音(TTS)系统,通过整合语音标记扩展了语言模型的能力,支持中英文语音生成。
hcsolakoglu
鄂尔浑-TTS是基于F5 TTS架构的土耳其语文本转语音模型,由Hasan Can Solakoğlu开发,目前处于Alpha阶段。
mmwillet2
Dia 1.6B 是一个适用于文本转语音任务的模型,支持多种量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基于F5-TTS框架训练的开源文本转语音模型,支持零样本语音克隆功能,采用Apache 2.0许可协议,可商业使用。
NikolayKozloff
Muyan-TTS是一个文本转语音(TTS)模型,已转换为GGUF格式以便与llama.cpp配合使用。
2121-8
基于llm-jp/llm-jp-3-150m-instruct3训练的日语TTS基础模型,通过精简控制提示实现高效参数配置
syvai
基于1000+小时丹麦语数据训练的文本转语音模型,支持自然对话场景的语音合成
Zonos TTS与Claude的MCP集成项目,实现文本转语音功能。
Deep-Co是一个基于Compose Multiplatform开发的跨平台聊天客户端,支持多种LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,并兼容OpenAI API和本地模型。具备聊天记录管理、提示词管理、角色适配、TTS等功能,支持多语言和主题定制。
Kokoro文本转语音(TTS)MCP服务器,支持生成MP3文件并可选上传至S3存储
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
一个基于FishSpeech的文本转语音(TTS)MCP服务器,支持语音参考保存,可与Dive等MCP兼容的LLM集成使用。
一个基于MCP服务器和OpenAI TTS SDK的文本转语音工具,支持本地环境播放。
基于Kokoro TTS引擎的语音合成MCP服务
一个基于MCP框架的多功能TTS服务器,整合了Kokoro本地TTS和OpenAI云端TTS引擎,支持实时音频流、语音定制及播放控制。
基于OpenAI TTS API的高质量文本转语音工具与MCP服务
Blabber-MCP是基于OpenAI文本转语音API的MCP服务器,为LLM提供语音输出功能。
基于MCP的文本转语音服务器
该项目使用Google ADK和ElevenLabs MCP服务器构建了一个文本转语音(TTS)的智能体,通过uvx连接实现语音合成功能。
为Claude AI提供Linux系统上的Zonos TTS语音合成集成
Windows TTS MCP Server是一个基于PowerShell的文本转语音服务,为Claude Desktop提供稳定高效的TTS功能,支持语音控制、速度调节和紧急静音等操作。
一个基于Kokoro TTS模型的文本转语音MCP服务器,提供高质量的语音合成服务