最好的语音合成 AI工具模型_精选语音合成资讯 - AIBase

AI资讯

小米重磅开源！OmniVoice 覆盖 600+ 语种零样本语音克隆 TTS：WER 仅 0.84%、速度快 40 倍，小语种也能轻松复活

小米Kaldi团队开源OmniVoice模型，支持超600种语言，在中文和多语言TTS基准测试中多项指标达到SOTA。中文WER低至0.84%，多语言性能超越主流商用模型，实现语音合成新突破。

小米重磅开源！OmniVoice 覆盖 600+ 语种零样本语音克隆 TTS：WER 仅 0.84%、速度快 40 倍，小语种也能轻松复活

微软推出全球最高精度的语音转写模型 MAI-Transcribe-1

微软发布全新语音转文字模型MAI-Transcribe-1，在25种语言上平均词错误率仅3.9%，成为全球最精准转写模型。该模型在FLEURS基准测试中表现优异，尤其在英语等11种核心语言上效果突出。这是微软MAI系列第三款产品，此前已推出语音合成和图像生成模型。

微软推出全球最高精度的语音转写模型 MAI-Transcribe-1

微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

微软开源VibeVoice语音AI模型，支持ASR和TTS，具备长音频处理、多说话人对话生成及实时低延迟特性，已在GitHub获27K星。采用MIT协议，支持本地部署，无需云端费用，旨在推动语音合成领域创新。

18.4k 19 小时前

微软开源前沿语音 AI 家族 VibeVoice：单次处理 90 分钟多说话人对话，GitHub 迅速获 27K Star

影视配音进入AI时代:通义实验室开源Fun-CineForge，首克多人对话难题

通义实验室发布开源多模态大模型Fun-CineForge，旨在解决传统AI配音在影视动画中情绪表达和口型同步不足的问题。该模型突破声画脱节瓶颈，专注于实现合成语音与画面唇部运动的高度匹配，提升配音真实感。

13.7k 19 小时前

影视配音进入AI时代:通义实验室开源Fun-CineForge，首克多人对话难题

AI产品

OmniVoice

OmniVoice

高质量的语音克隆 TTS 模型，支持 600 多种语言。

文本转声音

即答侠

即答侠

专业AI面试助手，提供实时语音识别、智能回答生成等功能，提升面试成功率。

VibeVoice

VibeVoice

开源的前沿语音 AI 模型，支持语音识别和文本转语音。

万象有声

万象有声

一站式有声内容创作平台，助力高效创作有声书。

模型

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

qwen3-livetranslate-flaltimeash-re-2025-09-22

$8

输入tokens/百万

$240

输出tokens/百万

52

上下文长度

qwen3-omni-flash-realtime

Alibaba

qwen3-omni-flash-realtime

$3.9

输入tokens/百万

$15.2

输出tokens/百万

64

上下文长度

qwen3-omni-30b-a3b-captioner

Alibaba

qwen3-omni-30b-a3b-captioner

$15.8

输入tokens/百万

$12.7

输出tokens/百万

64

上下文长度

qwen3-tts-flash

Alibaba

qwen3-tts-flash

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

qwen3-tts-flash-realtime

Alibaba

qwen3-tts-flash-realtime

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Doubao-1.5-pro-32k

Bytedance

Doubao-1.5-pro-32k

$0.8

输入tokens/百万

$2

输出tokens/百万

128

上下文长度

qwen3-asr-flash

Alibaba

qwen3-asr-flash

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Hunyuan-TurboS-latest

Tencent

Hunyuan-TurboS-latest

$0.8

输入tokens/百万

$2

输出tokens/百万

32

上下文长度

qwen-tts-realtime

Alibaba

qwen-tts-realtime

$2.4

输入tokens/百万

$12

输出tokens/百万

8

上下文长度

Doubao-1.5-thinking-vision-pro

Bytedance

Doubao-1.5-thinking-vision-pro

$3

输入tokens/百万

$9

输出tokens/百万

128

上下文长度

qwen-tts

Alibaba

qwen-tts

$1.6

输入tokens/百万

$10

输出tokens/百万

8

上下文长度

qwen-omni-turbo

Alibaba

qwen-omni-turbo

$1.5

输入tokens/百万

$1.6

输出tokens/百万

32

上下文长度

Grok-3

Xai

Grok-3

$21

输入tokens/百万

$105

输出tokens/百万

128

上下文长度

GPT-3.5 Turbo

Openai

GPT-3.5 Turbo

$3.5

输入tokens/百万

$10.5

输出tokens/百万

16

上下文长度

百度蒸汽机2.0

Baidu

百度蒸汽机2.0

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

GLM-4-Plus

Chatglm

GLM-4-Plus

$100

输入tokens/百万

$100

输出tokens/百万

128

上下文长度

MCP

elevenlabs-mcp

Elevenlabs Mcp

ElevenLabs官方MCP服务器，提供文本转语音和音频处理API交互能力

MiniMax

MiniMax

MiniMax官方模型上下文协议（MCP）服务器，支持文本转语音、视频/图像生成等API交互。

bouyomichan-mcp-nodejs

Bouyomichan Mcp Nodejs

这是一个基于Node.js的MCP服务器项目，通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成，提供文本转语音功能。

typecast-api-mcp-server-sample

Typecast Api Mcp Server Sample

为Typecast API实现的MCP服务器，提供标准化交互接口

elevenlabs-mcp-server

Elevenlabs Mcp Server

ElevenLabs文本转语音MCP服务

kyutai-tts-docker

Kyutai Tts Docker

Kyutai TTS的Docker部署方案，提供一键启动的Web界面、REST API和MCP工具支持，支持GPU加速和多语言界面。

kokoro-tts-mcp

Kokoro Tts Mcp

Kokoro文本转语音(TTS)MCP服务器，支持生成MP3文件并可选上传至S3存储

Zonos TTS

Zonos TTS

Zonos TTS与Claude的MCP集成项目，实现文本转语音功能。

voicepeak-mcp

Voicepeak Mcp

VOICEPEAK文本转语音的MCP服务器，支持语音合成、播放和发音词典管理等功能

neosapience_typecast-api-mcp-server-sample

Neosapience_typecast Api Mcp Server Sample

该项目实现了Typecast API的MCP服务器，为MCP客户端提供标准化的语音合成服务交互方式。

reachy-mini-mcp

Reachy Mini Mcp

这是一个用于控制Reachy Mini机器人的MCP服务器，通过自然语言指令实现舞蹈、表情、头部运动、摄像头图像捕捉、头部跟踪和本地实时语音合成等功能。

Rime Text-to-Speech

Rime Text To Speech

一个基于Rime API的文本转语音MCP服务器，提供系统音频播放功能。

MiniMax Multimodal

MiniMax Multimodal

MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集，提供图像生成、视频生成、文本转语音等功能，支持与MCP兼容客户端交互。

mcp-simple-aivisspeech

Mcp Simple Aivisspeech

一个为AivisSpeech文本转语音引擎设计的MCP服务器，支持日语语音合成、多角色声音选择和参数配置，实现与AI助手的无缝集成。

mcp-tts-say

Mcp Tts Say

一个基于MCP服务器和OpenAI TTS SDK的文本转语音工具，支持本地环境播放。

edge_tts_mcp_server

Edge_tts_mcp_server

基于Edge-TTS的MCP语音合成服务器

chatterbox-mcp

Chatterbox Mcp

一个基于Chatterbox TTS模型的简化MCP服务器，提供文本转语音生成及自动播放功能，支持实时进度通知和自动模型加载。

Kokoro TTS

Kokoro TTS

基于Kokoro TTS引擎的语音合成MCP服务

VOICEVOX

VOICEVOX

VOICEVOX互兼容的语音合成服务器，通过MCP协议实现与Cursor等工具的集成

rime-mcp

Rime Mcp

Rime MCP是一个基于Rime API的文本转语音服务，通过系统原生音频播放器实现语音合成与播放功能。

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

商务合作网站地图