Inworld發佈TTS-1.5文本轉語音模型,以自然、富有表現力的實時語音爲亮點。該模型支持多語言,延遲低於250毫秒,使用成本約每分鐘0.005美元,比同類產品便宜25倍,有望吸引廣泛用戶。
英偉達發佈PersonaPlex-7B-v1語音對話模型,突破傳統AI語音助手“一問一答”模式,實現更自然的真人對話體驗。該模型採用單一Transformer架構,直接完成語音理解與生成,無需傳統ASR、LLM、TTS串聯處理。
初創公司Resemble AI發佈開源語音模型“Chatterbox Turbo”,挑戰行業巨頭。該模型僅需5秒音頻即可克隆語音,延遲低至150毫秒,適用於實時AI代理、客服、遊戲角色等場景,性能顯著提升。
Google推出Gemini 2.5 Flash與Pro文本轉語音預覽模型,全面升級5月舊版。新模型支持24種語言的多角色對話,具備“情緒級”表達和自適應節奏功能,用戶可一鍵切換“歡快樂觀”或“陰鬱嚴肅”等音色。開發者現可在Google AI Studio與Playground免費測試,預計2025年第一季度投入生產,適用於有聲書、遊戲NPC及本地化課程等場景。
Noiz AI支持聲音克隆、情緒控制,提供多語言TTS及開發者API。
先進的文本轉語音模型,提供高質量的語音合成服務。
提供語音AI的ASR、TTS和LLM模型,可測試部署用於即時應用。
尼泊爾首個AI內容創作平臺,支持TTS、STT、文本轉圖像,有500+語音、100+語言。
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
$2.4
$12
8
$1.6
$10
nari-labs
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,能夠根據對話上下文進行調整,實現自然流暢的對話體驗。
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,專為自然對話場景設計。
neuphonic
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、端側文本轉語音(TTS)語言模型。基於0.5B參數的大語言模型骨幹構建,能為本地設備帶來自然的語音、即時性能、內置安全性和說話人克隆功能。
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、設備端文本轉語音(TTS)語言模型。基於0.5B大語言模型骨幹網絡構建,能為本地設備帶來自然的語音、即時性能、內置安全功能和說話人克隆能力。
notmax123
Zonos-v0.1 是一款領先的開源文本轉語音(TTS)模型,基於超過20萬小時的多語言語音數據訓練,在表現力和質量上可與頂級TTS供應商相媲美。支持零樣本語音克隆、多語言合成和精細的音頻控制。
NeuCodec的ONNX編譯版本解碼器,專為設備端文本轉語音(TTS)設計的輕量級音頻解碼模型,能夠高效地將編碼後的音頻特徵轉換為高質量音頻信號。
snorbyte
snorTTS-Indic-v0 是一個多語言印度語語音合成(TTS)模型,能夠生成九種印度語言的語音。
unsloth
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型(Speech-LLM),專為生成高質量、富有情感的語音而設計。
kyutai
京都臺文本轉語音(TTS)模型是一款用於流式文本轉語音的模型,支持即時語音生成和多語言處理。
re-skill
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型,專為實現高質量、富有情感的文本轉語音功能而設計。
salihfurkaan
VoxPolska Auralis是一款先進的波蘭語文本轉語音(TTS)模型,採用前沿深度學習技術,能夠精準捕捉波蘭語的細微差別和語調,將書面文本轉化為自然、流暢且富有表現力的語音。
cocktailpeanut
OpenAudio S1是一款領先的文本轉語音(TTS)模型,基於超過200萬小時的多語言音頻數據訓練,支持13種常見語言,提供高質量的語音合成服務,並支持豐富的情感、語調和特殊效果標記。
Llasa是一個基於LLaMA的文本轉語音(TTS)系統,通過整合語音標記擴展了語言模型的能力,支持中英文語音生成。
hcsolakoglu
鄂爾渾-TTS是基於F5 TTS架構的土耳其語文本轉語音模型,由Hasan Can Solakoğlu開發,目前處於Alpha階段。
mmwillet2
Dia 1.6B 是一個適用於文本轉語音任務的模型,支持多種量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基於F5-TTS框架訓練的開源文本轉語音模型,支持零樣本語音克隆功能,採用Apache 2.0許可協議,可商業使用。
NikolayKozloff
Muyan-TTS是一個文本轉語音(TTS)模型,已轉換為GGUF格式以便與llama.cpp配合使用。
2121-8
基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS基礎模型,通過精簡控制提示實現高效參數配置
syvai
基於1000+小時丹麥語數據訓練的文本轉語音模型,支持自然對話場景的語音合成
基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS語音合成系統,支持通過提示詞調控音質
Zonos TTS與Claude的MCP集成項目,實現文本轉語音功能。
基於Kokoro TTS引擎的語音合成MCP服務
一個基於FishSpeech的文本轉語音(TTS)MCP服務器,支持語音參考保存,可與Dive等MCP兼容的LLM集成使用。
一個基於MCP框架的多功能TTS服務器,整合了Kokoro本地TTS和OpenAI雲端TTS引擎,支持即時音頻流、語音定製及播放控制。
一個基於Chatterbox TTS模型的簡化MCP服務器,提供文本轉語音生成及自動播放功能,支持即時進度通知和自動模型加載。
基於OpenAI TTS API的高質量文本轉語音工具與MCP服務
Kyutai TTS的Docker部署方案,提供一鍵啟動的Web界面、REST API和MCP工具支持,支持GPU加速和多語言界面。
Blabber-MCP是基於OpenAI文本轉語音API的MCP服務器,為LLM提供語音輸出功能。
Kokoro文本轉語音(TTS)MCP服務器,支持生成MP3文件並可選上傳至S3存儲
Deep-Co是一個基於Compose Multiplatform開發的跨平臺聊天客戶端,支持多種LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,併兼容OpenAI API和本地模型。具備聊天記錄管理、提示詞管理、角色適配、TTS等功能,支持多語言和主題定製。
一個基於MCP服務器和OpenAI TTS SDK的文本轉語音工具,支持本地環境播放。
為Claude AI提供Linux系統上的Zonos TTS語音合成集成
基於MCP的文本轉語音服務器
該項目使用Google ADK和ElevenLabs MCP服務器構建了一個文本轉語音(TTS)的智能體,通過uvx連接實現語音合成功能。
一個基於Kokoro TTS模型的文本轉語音MCP服務器,提供高質量的語音合成服務
Windows TTS MCP Server是一個基於PowerShell的文本轉語音服務,為Claude Desktop提供穩定高效的TTS功能,支持語音控制、速度調節和緊急靜音等操作。