小米發佈MiMo-V2.5全鏈路語音模型系列,包括三款TTS模型和一款開源ASR模型,覆蓋語音輸入與輸出。TTS模型能精準調度情緒、語氣和角色身份,讓聲音可編程、可創作、可復刻,提升人機交互自然度,開啓語音智能新紀元。
小米發佈MiMo-V2.5系列大模型,包含MiMo-V2.5、V2.5-Pro及配套TTS與ASR模型,標誌着模型從“能用”到“好用”的升級。其中旗艦型號MiMo-V2.5-Pro在通用智能體能力和軟件工程方面已能與Claude Opus4.6、GPT-5.4等頂尖模型競爭,核心優勢在於高指令遵循度和自我修正能力。
谷歌推出Gemini-TTS模型,定位爲“最富表現力的文本轉語音解決方案”。其核心突破在於賦予開發者對語音的精細控制能力,通過提示詞可靈活調節情感、節奏和風格,告別傳統TTS聲音單調、缺乏表現力的侷限。
小米Kaldi團隊開源OmniVoice模型,支持超600種語言,在中文和多語言TTS基準測試中多項指標達到SOTA。中文WER低至0.84%,多語言性能超越主流商用模型,實現語音合成新突破。
高質量的語音克隆 TTS 模型,支持 600 多種語言。
提供語音AI的ASR、TTS和LLM模型,可測試部署用於即時應用。
一個可以在一次傳遞中生成超逼真的對話的 TTS 模型。
開發者可互動體驗 OpenAI API 中的新語音模型gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$4
$16
$2
$20
Baidu
128
Bytedance
$1.2
$3.6
4
nari-labs
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,能夠根據對話上下文進行調整,實現自然流暢的對話體驗。
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,專為自然對話場景設計。
neuphonic
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、端側文本轉語音(TTS)語言模型。基於0.5B參數的大語言模型骨幹構建,能為本地設備帶來自然的語音、即時性能、內置安全性和說話人克隆功能。
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、設備端文本轉語音(TTS)語言模型。基於0.5B大語言模型骨幹網絡構建,能為本地設備帶來自然的語音、即時性能、內置安全功能和說話人克隆能力。
notmax123
Zonos-v0.1 是一款領先的開源文本轉語音(TTS)模型,基於超過20萬小時的多語言語音數據訓練,在表現力和質量上可與頂級TTS供應商相媲美。支持零樣本語音克隆、多語言合成和精細的音頻控制。
NeuCodec的ONNX編譯版本解碼器,專為設備端文本轉語音(TTS)設計的輕量級音頻解碼模型,能夠高效地將編碼後的音頻特徵轉換為高質量音頻信號。
snorbyte
snorTTS-Indic-v0 是一個多語言印度語語音合成(TTS)模型,能夠生成九種印度語言的語音。
unsloth
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型(Speech-LLM),專為生成高質量、富有情感的語音而設計。
kyutai
京都臺文本轉語音(TTS)模型是一款用於流式文本轉語音的模型,支持即時語音生成和多語言處理。
re-skill
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型,專為實現高質量、富有情感的文本轉語音功能而設計。
salihfurkaan
VoxPolska Auralis是一款先進的波蘭語文本轉語音(TTS)模型,採用前沿深度學習技術,能夠精準捕捉波蘭語的細微差別和語調,將書面文本轉化為自然、流暢且富有表現力的語音。
cocktailpeanut
OpenAudio S1是一款領先的文本轉語音(TTS)模型,基於超過200萬小時的多語言音頻數據訓練,支持13種常見語言,提供高質量的語音合成服務,並支持豐富的情感、語調和特殊效果標記。
Llasa是一個基於LLaMA的文本轉語音(TTS)系統,通過整合語音標記擴展了語言模型的能力,支持中英文語音生成。
hcsolakoglu
鄂爾渾-TTS是基於F5 TTS架構的土耳其語文本轉語音模型,由Hasan Can Solakoğlu開發,目前處於Alpha階段。
mmwillet2
Dia 1.6B 是一個適用於文本轉語音任務的模型,支持多種量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基於F5-TTS框架訓練的開源文本轉語音模型,支持零樣本語音克隆功能,採用Apache 2.0許可協議,可商業使用。
NikolayKozloff
Muyan-TTS是一個文本轉語音(TTS)模型,已轉換為GGUF格式以便與llama.cpp配合使用。
2121-8
基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS基礎模型,通過精簡控制提示實現高效參數配置
Karayakar
OuteTTS是一個專注於土耳其語的文本轉語音(TTS)模型,基於500M參數規模,能夠將土耳其語文本轉換為自然語音。
基於sarashina2.2‑0.5b‑instruct‑v0.1訓練的日語TTS模型,支持通過提示控制音質
一個基於Chatterbox TTS模型的簡化MCP服務器,提供文本轉語音生成及自動播放功能,支持即時進度通知和自動模型加載。
Deep-Co是一個基於Compose Multiplatform開發的跨平臺聊天客戶端,支持多種LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,併兼容OpenAI API和本地模型。具備聊天記錄管理、提示詞管理、角色適配、TTS等功能,支持多語言和主題定製。
一個基於Kokoro TTS模型的文本轉語音MCP服務器,提供高質量的語音合成服務