微軟開源實時語音模型VibeVoice-Realtime-0.5B,具備極低延遲和接近真人的語音表現。該模型從文本輸入到發聲平均僅需300毫秒,遠低於傳統TTS模型的1-3秒,實現近乎零延遲的實時語音合成。
巨人網絡與清華大學聯合發佈多方言語音合成大模型DiaMoE-TTS,實現技術突破並全面開源數據代碼。該框架旨在解決方言TTS依賴海量專有數據的行業難題,推動方言語音合成的公平普惠發展。
微軟開源文本轉語音模型VibeVoice引發關注,支持90分鐘超長語音生成,突破時長限制,爲長篇語音、多人對話及中文語音合成樹立新標杆。
ElevenLabs於2025年8月20日推出全新Eleven v3 Alpha API,作爲突破性文本轉語音工具。該API支持70多種語言,能生成自然流暢且富有情感的語音,被譽爲全球最具表現力的TTS模型。新增對話模式功能,支持開發者創建多角色語音交互。
提供語音AI的ASR、TTS和LLM模型,可測試部署用於即時應用。
一個可以在一次傳遞中生成超逼真的對話的 TTS 模型。
開發者可互動體驗 OpenAI API 中的新語音模型gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。
Spark-TTS 是一種基於大語言模型的高效單流解耦語音合成模型。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$4
$16
$2
$20
Baidu
128
Bytedance
$1.2
$3.6
4
nari-labs
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,能夠根據對話上下文進行調整,實現自然流暢的對話體驗。
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,專為自然對話場景設計。
neuphonic
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、端側文本轉語音(TTS)語言模型。基於0.5B參數的大語言模型骨幹構建,能為本地設備帶來自然的語音、即時性能、內置安全性和說話人克隆功能。
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、設備端文本轉語音(TTS)語言模型。基於0.5B大語言模型骨幹網絡構建,能為本地設備帶來自然的語音、即時性能、內置安全功能和說話人克隆能力。
notmax123
Zonos-v0.1 是一款領先的開源文本轉語音(TTS)模型,基於超過20萬小時的多語言語音數據訓練,在表現力和質量上可與頂級TTS供應商相媲美。支持零樣本語音克隆、多語言合成和精細的音頻控制。
NeuCodec的ONNX編譯版本解碼器,專為設備端文本轉語音(TTS)設計的輕量級音頻解碼模型,能夠高效地將編碼後的音頻特徵轉換為高質量音頻信號。
snorbyte
snorTTS-Indic-v0 是一個多語言印度語語音合成(TTS)模型,能夠生成九種印度語言的語音。
unsloth
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型(Speech-LLM),專為生成高質量、富有情感的語音而設計。
kyutai
京都臺文本轉語音(TTS)模型是一款用於流式文本轉語音的模型,支持即時語音生成和多語言處理。
re-skill
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型,專為實現高質量、富有情感的文本轉語音功能而設計。
salihfurkaan
VoxPolska Auralis是一款先進的波蘭語文本轉語音(TTS)模型,採用前沿深度學習技術,能夠精準捕捉波蘭語的細微差別和語調,將書面文本轉化為自然、流暢且富有表現力的語音。
cocktailpeanut
OpenAudio S1是一款領先的文本轉語音(TTS)模型,基於超過200萬小時的多語言音頻數據訓練,支持13種常見語言,提供高質量的語音合成服務,並支持豐富的情感、語調和特殊效果標記。
Llasa是一個基於LLaMA的文本轉語音(TTS)系統,通過整合語音標記擴展了語言模型的能力,支持中英文語音生成。
hcsolakoglu
鄂爾渾-TTS是基於F5 TTS架構的土耳其語文本轉語音模型,由Hasan Can Solakoğlu開發,目前處於Alpha階段。
mmwillet2
Dia 1.6B 是一個適用於文本轉語音任務的模型,支持多種量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基於F5-TTS框架訓練的開源文本轉語音模型,支持零樣本語音克隆功能,採用Apache 2.0許可協議,可商業使用。
NikolayKozloff
Muyan-TTS是一個文本轉語音(TTS)模型,已轉換為GGUF格式以便與llama.cpp配合使用。
2121-8
基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS基礎模型,通過精簡控制提示實現高效參數配置
Karayakar
OuteTTS是一個專注於土耳其語的文本轉語音(TTS)模型,基於500M參數規模,能夠將土耳其語文本轉換為自然語音。
基於sarashina2.2‑0.5b‑instruct‑v0.1訓練的日語TTS模型,支持通過提示控制音質
一個基於Chatterbox TTS模型的簡化MCP服務器,提供文本轉語音生成及自動播放功能,支持即時進度通知和自動模型加載。
Deep-Co是一個基於Compose Multiplatform開發的跨平臺聊天客戶端,支持多種LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,併兼容OpenAI API和本地模型。具備聊天記錄管理、提示詞管理、角色適配、TTS等功能,支持多語言和主題定製。
一個基於Kokoro TTS模型的文本轉語音MCP服務器,提供高質量的語音合成服務