Google推出Gemini 2.5 Flash與Pro文本轉語音預覽模型,全面升級5月舊版。新模型支持24種語言的多角色對話,具備“情緒級”表達和自適應節奏功能,用戶可一鍵切換“歡快樂觀”或“陰鬱嚴肅”等音色。開發者現可在Google AI Studio與Playground免費測試,預計2025年第一季度投入生產,適用於有聲書、遊戲NPC及本地化課程等場景。
微軟開源實時語音模型VibeVoice-Realtime-0.5B,具備極低延遲和接近真人的語音表現。該模型從文本輸入到發聲平均僅需300毫秒,遠低於傳統TTS模型的1-3秒,實現近乎零延遲的實時語音合成。
巨人網絡與清華大學聯合發佈多方言語音合成大模型DiaMoE-TTS,實現技術突破並全面開源數據代碼。該框架旨在解決方言TTS依賴海量專有數據的行業難題,推動方言語音合成的公平普惠發展。
B站Index團隊開源文本轉語音系統IndexTTS-2.0,該系統具備情感可控和時長可調兩大特點,標誌着零樣本TTS技術實現重要突破。通過引入時間編碼機制等核心創新,有效解決了語音合成領域的情感表達和時長控制難題,推動技術實用化進程。
先進的文本轉語音模型,提供高質量的語音合成服務。
提供語音AI的ASR、TTS和LLM模型,可測試部署用於即時應用。
尼泊爾首個AI內容創作平臺,支持TTS、STT、文本轉圖像,有500+語音、100+語言。
Nexa SDK可在數分鐘內將AI模型部署到任何設備上,快速、私密且適用於多場景。
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
$2.4
$12
8
$1.6
$10
nari-labs
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,能夠根據對話上下文進行調整,實現自然流暢的對話體驗。
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,專為自然對話場景設計。
neuphonic
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、端側文本轉語音(TTS)語言模型。基於0.5B參數的大語言模型骨幹構建,能為本地設備帶來自然的語音、即時性能、內置安全性和說話人克隆功能。
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、設備端文本轉語音(TTS)語言模型。基於0.5B大語言模型骨幹網絡構建,能為本地設備帶來自然的語音、即時性能、內置安全功能和說話人克隆能力。
notmax123
Zonos-v0.1 是一款領先的開源文本轉語音(TTS)模型,基於超過20萬小時的多語言語音數據訓練,在表現力和質量上可與頂級TTS供應商相媲美。支持零樣本語音克隆、多語言合成和精細的音頻控制。
NeuCodec的ONNX編譯版本解碼器,專為設備端文本轉語音(TTS)設計的輕量級音頻解碼模型,能夠高效地將編碼後的音頻特徵轉換為高質量音頻信號。
snorbyte
snorTTS-Indic-v0 是一個多語言印度語語音合成(TTS)模型,能夠生成九種印度語言的語音。
unsloth
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型(Speech-LLM),專為生成高質量、富有情感的語音而設計。
kyutai
京都臺文本轉語音(TTS)模型是一款用於流式文本轉語音的模型,支持即時語音生成和多語言處理。
re-skill
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型,專為實現高質量、富有情感的文本轉語音功能而設計。
salihfurkaan
VoxPolska Auralis是一款先進的波蘭語文本轉語音(TTS)模型,採用前沿深度學習技術,能夠精準捕捉波蘭語的細微差別和語調,將書面文本轉化為自然、流暢且富有表現力的語音。
cocktailpeanut
OpenAudio S1是一款領先的文本轉語音(TTS)模型,基於超過200萬小時的多語言音頻數據訓練,支持13種常見語言,提供高質量的語音合成服務,並支持豐富的情感、語調和特殊效果標記。
Llasa是一個基於LLaMA的文本轉語音(TTS)系統,通過整合語音標記擴展了語言模型的能力,支持中英文語音生成。
hcsolakoglu
鄂爾渾-TTS是基於F5 TTS架構的土耳其語文本轉語音模型,由Hasan Can Solakoğlu開發,目前處於Alpha階段。
mmwillet2
Dia 1.6B 是一個適用於文本轉語音任務的模型,支持多種量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基於F5-TTS框架訓練的開源文本轉語音模型,支持零樣本語音克隆功能,採用Apache 2.0許可協議,可商業使用。
NikolayKozloff
Muyan-TTS是一個文本轉語音(TTS)模型,已轉換為GGUF格式以便與llama.cpp配合使用。
2121-8
基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS基礎模型,通過精簡控制提示實現高效參數配置
syvai
基於1000+小時丹麥語數據訓練的文本轉語音模型,支持自然對話場景的語音合成
基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS語音合成系統,支持通過提示詞調控音質
Zonos TTS與Claude的MCP集成項目,實現文本轉語音功能。
基於Kokoro TTS引擎的語音合成MCP服務
一個基於FishSpeech的文本轉語音(TTS)MCP服務器,支持語音參考保存,可與Dive等MCP兼容的LLM集成使用。
一個基於MCP框架的多功能TTS服務器,整合了Kokoro本地TTS和OpenAI雲端TTS引擎,支持即時音頻流、語音定製及播放控制。
一個基於Chatterbox TTS模型的簡化MCP服務器,提供文本轉語音生成及自動播放功能,支持即時進度通知和自動模型加載。
基於OpenAI TTS API的高質量文本轉語音工具與MCP服務
Deep-Co是一個基於Compose Multiplatform開發的跨平臺聊天客戶端,支持多種LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,併兼容OpenAI API和本地模型。具備聊天記錄管理、提示詞管理、角色適配、TTS等功能,支持多語言和主題定製。
Kokoro文本轉語音(TTS)MCP服務器,支持生成MP3文件並可選上傳至S3存儲
Blabber-MCP是基於OpenAI文本轉語音API的MCP服務器,為LLM提供語音輸出功能。
一個基於MCP服務器和OpenAI TTS SDK的文本轉語音工具,支持本地環境播放。
為Claude AI提供Linux系統上的Zonos TTS語音合成集成
基於MCP的文本轉語音服務器
該項目使用Google ADK和ElevenLabs MCP服務器構建了一個文本轉語音(TTS)的智能體,通過uvx連接實現語音合成功能。
一個基於Kokoro TTS模型的文本轉語音MCP服務器,提供高質量的語音合成服務
Windows TTS MCP Server是一個基於PowerShell的文本轉語音服務,為Claude Desktop提供穩定高效的TTS功能,支持語音控制、速度調節和緊急靜音等操作。