最好的TTS模型 AI工具模型_精選TTS模型資訊

AI資訊

Inworld 推出全新 TTS-1.5：實時語音，延遲低，並支持多語言

Inworld發佈TTS-1.5文本轉語音模型，以自然、富有表現力的實時語音爲亮點。該模型支持多語言，延遲低於250毫秒，使用成本約每分鐘0.005美元，比同類產品便宜25倍，有望吸引廣泛用戶。

13.5k 前天

英偉達發佈 PersonaPlex-7B-v1:重塑實時語音交互的“全雙工”黑科技

英偉達發佈PersonaPlex-7B-v1語音對話模型，突破傳統AI語音助手“一問一答”模式，實現更自然的真人對話體驗。該模型採用單一Transformer架構，直接完成語音理解與生成，無需傳統ASR、LLM、TTS串聯處理。

25.1k 3 小時前

英偉達發佈 PersonaPlex-7B-v1:重塑實時語音交互的“全雙工”黑科技

拒絕高價訂閱!Resemble AI 全面開源旗艦級 TTS 模型，自帶防僞水印劍指商業應用

初創公司Resemble AI發佈開源語音模型“Chatterbox Turbo”，挑戰行業巨頭。該模型僅需5秒音頻即可克隆語音，延遲低至150毫秒，適用於實時AI代理、客服、遊戲角色等場景，性能顯著提升。

13k 7 小時前

微軟開源實時語音模型VibeVoice-Realtime-0.5B，300ms實時開聲，90分鐘長音頻都不喘！

微軟開源實時語音模型VibeVoice-Realtime-0.5B，具備極低延遲和接近真人的語音表現。該模型從文本輸入到發聲平均僅需300毫秒，遠低於傳統TTS模型的1-3秒，實現近乎零延遲的實時語音合成。

27.4k 9 小時前

AI產品

Hathora

提供語音AI的ASR、TTS和LLM模型，可測試部署用於即時應用。

開發平臺

7.4k

Dia AI

一個可以在一次傳遞中生成超逼真的對話的 TTS 模型。

文本轉聲音

15.2k

OpenAI.fm

開發者可互動體驗 OpenAI API 中的新語音模型gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。

API服務

18.6k

Spark-TTS

Spark-TTS 是一種基於大語言模型的高效單流解耦語音合成模型。

文本轉聲音

14.5k

模型

Gemini 2.0 Flash-Lite

Google

$0.49

輸入tokens/百萬

$2.1

輸出tokens/百萬

上下文長度

GPT-4.1 mini

Openai

$2.8

輸入tokens/百萬

$11.2

輸出tokens/百萬

上下文長度

Grok 4 Fast

Xai

$1.4

輸入tokens/百萬

$3.5

輸出tokens/百萬

上下文長度

o3-mini

Openai

$7.7

輸入tokens/百萬

$30.8

輸出tokens/百萬

200

上下文長度

GPT-5 Codex

Openai

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Claude 3 Opus

Anthropic

$105

輸入tokens/百萬

$525

輸出tokens/百萬

200

上下文長度

Gemini 2.0 Flash

Google

$0.7

輸入tokens/百萬

$2.8

輸出tokens/百萬

上下文長度

Claude Haiku 4.5

Anthropic

輸入tokens/百萬

$35

輸出tokens/百萬

200

上下文長度

Gemini 2.5 Flash

Google

$2.1

輸入tokens/百萬

$17.5

輸出tokens/百萬

上下文長度

Claude Sonnet 4.5

Anthropic

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

Claude 3 Sonnet

Anthropic

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

Gemini 2.5 Flash-Lite

Google

$0.7

輸入tokens/百萬

$2.8

輸出tokens/百萬

上下文長度

wan2.5-i2i-preview

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

qwen3-vl-plus

Alibaba

輸入tokens/百萬

$10

輸出tokens/百萬

256

上下文長度

qwen3-max

Alibaba

輸入tokens/百萬

$24

輸出tokens/百萬

256

上下文長度

qwen-image-plus

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

qwen3-vl-235b-a22b-thinking

Alibaba

輸入tokens/百萬

$20

輸出tokens/百萬

上下文長度

qwen3-coder-plus

Alibaba

輸入tokens/百萬

$16

輸出tokens/百萬

上下文長度

Qianfan-Lightning

Baidu

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

Doubao-Seed-Translation

Bytedance

$1.2

輸入tokens/百萬

$3.6

輸出tokens/百萬

上下文長度

MCP

Chatterbox Mcp

一個基於Chatterbox TTS模型的簡化MCP服務器，提供文本轉語音生成及自動播放功能，支持即時進度通知和自動模型加載。

python

6.8k

2.5分

DeepCo

Deep-Co是一個基於Compose Multiplatform開發的跨平臺聊天客戶端，支持多種LLM API提供商，包括OpenRouter、Anthropic、Grok、OpenAI等，併兼容OpenAI API和本地模型。具備聊天記錄管理、提示詞管理、角色適配、TTS等功能，支持多語言和主題定製。

kotlin

13.1k

2.5分