Inworld發佈TTS-1.5文本轉語音模型,以自然、富有表現力的實時語音爲亮點。該模型支持多語言,延遲低於250毫秒,使用成本約每分鐘0.005美元,比同類產品便宜25倍,有望吸引廣泛用戶。
英偉達發佈PersonaPlex-7B-v1語音對話模型,突破傳統AI語音助手“一問一答”模式,實現更自然的真人對話體驗。該模型採用單一Transformer架構,直接完成語音理解與生成,無需傳統ASR、LLM、TTS串聯處理。
初創公司Resemble AI發佈開源語音模型“Chatterbox Turbo”,挑戰行業巨頭。該模型僅需5秒音頻即可克隆語音,延遲低至150毫秒,適用於實時AI代理、客服、遊戲角色等場景,性能顯著提升。
微軟開源實時語音模型VibeVoice-Realtime-0.5B,具備極低延遲和接近真人的語音表現。該模型從文本輸入到發聲平均僅需300毫秒,遠低於傳統TTS模型的1-3秒,實現近乎零延遲的實時語音合成。
提供語音AI的ASR、TTS和LLM模型,可測試部署用於即時應用。
一個可以在一次傳遞中生成超逼真的對話的 TTS 模型。
開發者可互動體驗 OpenAI API 中的新語音模型gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。
Spark-TTS 是一種基於大語言模型的高效單流解耦語音合成模型。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
nari-labs
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,能夠根據對話上下文進行調整,實現自然流暢的對話體驗。
Dia2是由Nari Labs開發的流式對話文本轉語音(TTS)模型,支持即時語音生成,無需完整文本即可開始生成音頻,專為自然對話場景設計。
neuphonic
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、端側文本轉語音(TTS)語言模型。基於0.5B參數的大語言模型骨幹構建,能為本地設備帶來自然的語音、即時性能、內置安全性和說話人克隆功能。
NeuTTS Air是世界上首個具備即時語音克隆功能的超逼真、設備端文本轉語音(TTS)語言模型。基於0.5B大語言模型骨幹網絡構建,能為本地設備帶來自然的語音、即時性能、內置安全功能和說話人克隆能力。
notmax123
Zonos-v0.1 是一款領先的開源文本轉語音(TTS)模型,基於超過20萬小時的多語言語音數據訓練,在表現力和質量上可與頂級TTS供應商相媲美。支持零樣本語音克隆、多語言合成和精細的音頻控制。
NeuCodec的ONNX編譯版本解碼器,專為設備端文本轉語音(TTS)設計的輕量級音頻解碼模型,能夠高效地將編碼後的音頻特徵轉換為高質量音頻信號。
snorbyte
snorTTS-Indic-v0 是一個多語言印度語語音合成(TTS)模型,能夠生成九種印度語言的語音。
unsloth
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型(Speech-LLM),專為生成高質量、富有情感的語音而設計。
kyutai
京都臺文本轉語音(TTS)模型是一款用於流式文本轉語音的模型,支持即時語音生成和多語言處理。
re-skill
Orpheus TTS 是一款基於 Llama 的先進語音大語言模型,專為實現高質量、富有情感的文本轉語音功能而設計。
salihfurkaan
VoxPolska Auralis是一款先進的波蘭語文本轉語音(TTS)模型,採用前沿深度學習技術,能夠精準捕捉波蘭語的細微差別和語調,將書面文本轉化為自然、流暢且富有表現力的語音。
cocktailpeanut
OpenAudio S1是一款領先的文本轉語音(TTS)模型,基於超過200萬小時的多語言音頻數據訓練,支持13種常見語言,提供高質量的語音合成服務,並支持豐富的情感、語調和特殊效果標記。
Llasa是一個基於LLaMA的文本轉語音(TTS)系統,通過整合語音標記擴展了語言模型的能力,支持中英文語音生成。
hcsolakoglu
鄂爾渾-TTS是基於F5 TTS架構的土耳其語文本轉語音模型,由Hasan Can Solakoğlu開發,目前處於Alpha階段。
mmwillet2
Dia 1.6B 是一個適用於文本轉語音任務的模型,支持多種量化版本,兼容TTS.cpp框架。
mrfakename
OpenF5 TTS 是一款基於F5-TTS框架訓練的開源文本轉語音模型,支持零樣本語音克隆功能,採用Apache 2.0許可協議,可商業使用。
NikolayKozloff
Muyan-TTS是一個文本轉語音(TTS)模型,已轉換為GGUF格式以便與llama.cpp配合使用。
2121-8
基於llm-jp/llm-jp-3-150m-instruct3訓練的日語TTS基礎模型,通過精簡控制提示實現高效參數配置
Karayakar
OuteTTS是一個專注於土耳其語的文本轉語音(TTS)模型,基於500M參數規模,能夠將土耳其語文本轉換為自然語音。
基於sarashina2.2‑0.5b‑instruct‑v0.1訓練的日語TTS模型,支持通過提示控制音質
一個基於Chatterbox TTS模型的簡化MCP服務器,提供文本轉語音生成及自動播放功能,支持即時進度通知和自動模型加載。
Deep-Co是一個基於Compose Multiplatform開發的跨平臺聊天客戶端,支持多種LLM API提供商,包括OpenRouter、Anthropic、Grok、OpenAI等,併兼容OpenAI API和本地模型。具備聊天記錄管理、提示詞管理、角色適配、TTS等功能,支持多語言和主題定製。
一個基於Kokoro TTS模型的文本轉語音MCP服務器,提供高質量的語音合成服務