Best 实时文本转语音 AI Tools & Models - Premium 实时文本转语音 News

AI News

微软发布 VibeVoice 0.5B：仅0.5B参数却实现300毫秒实时开口

微软推出实时文本转语音模型VibeVoice-Realtime-0.5B，仅0.5B参数即可实现接近实时的语音生成，最快300毫秒内开始发声，支持中英文实时转录与语音生成，中文表现略逊于英文，但整体流畅度和还原度高，音质自然。

8.3k 51 minutes ago

全新开源语音模型 Maya1：实现实时、富有表现力的文本转语音

Maya Research推出Maya1文本转语音模型，30亿参数，可在单GPU实时运行。模型通过自然语言描述和文本输入，生成可控且富有表现力的语音，精准模拟人类情感与声音细节，如指定年龄、口音或角色特征。

11.6k yesterday

OpenAI 推出“实时 API”:让AI语音助手像真人一样沟通

OpenAI发布实时API，推出GPT-Realtime模型，支持直接语音生成与处理，无需文本转换，显著提升对话自然度和响应速度，主要面向客户支持、教育等领域的语音助手开发。

10.1k 5 days ago

超小的TTS模型 Kitten TTS：参数量仅为 1500 万

KittenML团队发布开源轻量级文本转语音模型Kitten TTS，仅25MB大小、1500万参数，支持CPU运行无需GPU。该模型提供高质量多语音选项，优化了推理速度实现实时合成，并配套简易安装指南。目前处于开发者预览阶段，未来将推出完整模型权重、移动SDK和网页版，推动语音合成技术普及应用。

12.4k 1 hours ago

AI Products

Sonic-3

实时文本转语音，带有笑声和情感。

文本转声音

8.5k

Zonos-v0.1

Zonos-v0.1 是一款具有高保真语音克隆功能的实时文本转语音（TTS）模型。

语音克隆

11k

Deepgram Aura

人工智能助手的实时文本转语音

AI语音合成

8.9k

Live Transcribe: Voice to text

实时转写，将语音转为文本

AI语音转文本

10.4k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

MCP

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

python

9.6k

2.5points

Speech Interface (Faster Whisper)

Speech MCP 是一个为Goose设计的语音交互扩展，提供实时语音识别、文本转语音和音频可视化功能。

python

6.2k

2.5points

Chatterbox Mcp

一个基于Chatterbox TTS模型的简化MCP服务器，提供文本转语音生成及自动播放功能，支持实时进度通知和自动模型加载。

python

6.5k

2.5points

Mcp Fish Audio Server

Fish Audio MCP服务器是一个提供文本转语音服务的中间件，通过Model Context Protocol实现与Claude等LLM的无缝集成，支持多语言、多音色和实时流式音频生成。

typescript

8.1k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

微软发布 VibeVoice 0.5B：仅0.5B参数却实现300毫秒实时开口

全新开源语音模型 Maya1：实现实时、富有表现力的文本转语音

OpenAI 推出“实时 API”:让AI语音助手像真人一样沟通

超小的TTS模型 Kitten TTS：参数量仅为 1500 万

AI Products

Sonic-3

Zonos-v0.1

Deepgram Aura

Live Transcribe: Voice to text

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-max

Qianfan-Lightning

qwen3-livetranslate-flaltimeash-re-2025-09-22

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

qwen3-omni-flash-realtime

VieNeu TTS 1000h

Dia2 2B

Dia2 1B

Asr 19m V2 En 32b

VieNeu TTS

Thewhisper Large V3 Turbo

Thewhisper Large V3

Kani Tts 400m Es

Kani Tts 400m Ar

Kani Tts 400m En

Kani Tts 400m 0.3 Pt

Kani Tts 370m

Kani Tts 450m 0.2 Pt

Neutts Air Q8 Gguf

Neutts Air Q4 Gguf

Parakeet Ctc 1.1b

Neutts Air

Marvis Tts 250m V0.1 Transformers

Tts 1.6b En_fr

Orpheus_3b_0.1_GGUF

MCP

Speech Mcp

Speech Interface (Faster Whisper)

Chatterbox Mcp

Mcp Fish Audio Server