微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
巨人网络与清华大学联合发布多方言语音合成大模型DiaMoE-TTS,实现技术突破并全面开源数据代码。该框架旨在解决方言TTS依赖海量专有数据的行业难题,推动方言语音合成的公平普惠发展。
微软开源文本转语音模型VibeVoice引发关注,支持90分钟超长语音生成,突破时长限制,为长篇语音、多人对话及中文语音合成树立新标杆。
ElevenLabs于2025年8月20日推出全新Eleven v3 Alpha API,作为突破性文本转语音工具。该API支持70多种语言,能生成自然流畅且富有情感的语音,被誉为全球最具表现力的TTS模型。新增对话模式功能,支持开发者创建多角色语音交互。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
一个可以在一次传递中生成超逼真的对话的 TTS 模型。
开发者可互动体验 OpenAI API 中的新语音模型gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。
Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
nari-labs
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,能够根据对话上下文进行调整,实现自然流畅的对话体验。
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,专为自然对话场景设计。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
notmax123
Zonos-v0.1 是一款领先的开源文本转语音(TTS)模型,基于超过20万小时的多语言语音数据训练,在表现力和质量上可与顶级TTS供应商相媲美。支持零样本语音克隆、多语言合成和精细的音频控制。
NeuCodec的ONNX编译版本解码器,专为设备端文本转语音(TTS)设计的轻量级音频解码模型,能够高效地将编码后的音频特征转换为高质量音频信号。
snorbyte
snorTTS-Indic-v0 是一个多语言印度语语音合成(TTS)模型,能够生成九种印度语言的语音。
unsloth
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型(Speech-LLM),专为生成高质量、富有情感的语音而设计。
kyutai
京都台文本转语音(TTS)模型是一款用于流式文本转语音的模型,支持实时语音生成和多语言处理。
re-skill
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型,专为实现高质量、富有情感的文本转语音功能而设计。
salihfurkaan
VoxPolska Auralis是一款先进的波兰语文本转语音(TTS)模型,采用前沿深度学习技术,能够精准捕捉波兰语的细微差别和语调,将书面文本转化为自然、流畅且富有表现力的语音。
cocktailpeanut
OpenAudio S1是一款领先的文本转语音(TTS)模型,基于超过200万小时的多语言音频数据训练,支持13种常见语言,提供高质量的语音合成服务,并支持丰富的情感、语调和特殊效果标记。
Llasa是一个基于LLaMA的文本转语音(TTS)系统,通过整合语音标记扩展了语言模型的能力,支持中英文语音生成。
hcsolakoglu
鄂尔浑-TTS是基于F5 TTS架构的土耳其语文本转语音模型,由Hasan Can Solakoğlu开发,目前处于Alpha阶段。
mmwillet2
Dia 1.6B 是一个适用于文本转语音任务的模型,支持多种量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基于F5-TTS框架训练的开源文本转语音模型,支持零样本语音克隆功能,采用Apache 2.0许可协议,可商业使用。
NikolayKozloff
Muyan-TTS是一个文本转语音(TTS)模型,已转换为GGUF格式以便与llama.cpp配合使用。
2121-8
基于llm-jp/llm-jp-3-150m-instruct3训练的日语TTS基础模型,通过精简控制提示实现高效参数配置
Karayakar
OuteTTS是一个专注于土耳其语的文本转语音(TTS)模型,基于500M参数规模,能够将土耳其语文本转换为自然语音。
基于sarashina2.2‑0.5b‑instruct‑v0.1训练的日语TTS模型,支持通过提示控制音质
Deep-Co是一个基于Compose Multiplatform开发的跨平台聊天客户端,支持多种LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,并兼容OpenAI API和本地模型。具备聊天记录管理、提示词管理、角色适配、TTS等功能,支持多语言和主题定制。
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
一个基于Kokoro TTS模型的文本转语音MCP服务器,提供高质量的语音合成服务