最好的Speech AI工具模型_精选Speech资讯 - AIBase

AI资讯

首包延迟300ms、支持20种方言:通义千问Qwen-Audio-3.0-TTS正式开放

阿里通义千问发布新一代实时语音合成模型Qwen-Audio-3.0-TTS，实现从“能说话”到“会表达”的跨越。Plus版本在Artificial Analysis Speech Arena排名全球第一，超越Gemini3.1TTS等主流模型。双版本中Flash版主打低延迟实时交互（首包约300ms），Plus版专攻高质量自然度与音色还原。

18.2k 5 小时前

首包延迟300ms、支持20种方言:通义千问Qwen-Audio-3.0-TTS正式开放

阶跃语音模型位列全球评测前三，创下中国大模型听感新高

中国阶跃星辰的语音生成模型StepAudio2.5TTS在Artificial Analysis Speech Arena Leaderboard中跻身全球前三，成为排名最高的中国大模型产品。该榜单采用盲测Elo评分机制，用户在不了解模型身份的情况下评估听感，突显了其真实语音合成实力。

阶跃语音模型位列全球评测前三，创下中国大模型听感新高

算力本地化：Speechify 推出原生 Windows 应用挑战系统级听写

Speechify发布原生Windows客户端，从文本转语音工具升级为全栈语音助手。应用集成三类本地AI模型，支持跨应用实时听写与文档转录，对标Superwhisper等竞品。为保障响应速度与隐私，在Copilot+ PC等高性能设备上支持完全本地化运行，用户无需上传音频至云端，即可利用本地NPU或GPU驱动的Whisper模型。

11.6k 9 小时前

算力本地化：Speechify 推出原生 Windows 应用挑战系统级听写

马斯克 xAI 上线语音 API：AI 嘴替争霸战再次升级

马斯克旗下xAI公司正式推出Grok文本转语音Speech API，使AI助手具备语音交互能力。此举不仅拓展了Grok的多模态功能，更为开发者提供了便捷接口，可将其对话能力集成至各类应用，推动AI生态向更拟人化方向发展。

马斯克 xAI 上线语音 API：AI 嘴替争霸战再次升级

AI产品

FineVoice Text to Speech

FineVoice Text to Speech

FineVoice可将文本转换为超1500种逼真AI语音，支持风格、速度等多方面自定义。

文本转声音

Voco Speech

Voco Speech

Voco Speech是适用于Mac的离线AI语音克隆和文本转语音工具，有免费额度和无限克隆。

BlabbyAI Speech to text

BlabbyAI Speech to text

BlabbyAI Chrome扩展，快速准确将语音转换为文本，支持任意网站语音输入。

语音转文本

Speechly

Speechly

将您的想法说出来，即可在几秒钟内获得一封专业的邮件，随时发送。

模型

Latin_SpeechT5

Ken-Z

本模型是microsoft/speech-t5的微调版本，专门针对拉丁语进行了优化训练。它使用了来自Vox Classica数据集的67小时拉丁语音频数据进行训练，能够实现高质量的拉丁语文本转语音功能。

Safetensors

Safetensors其他

SE_DiCoW

BUT-FIT

SE-DiCoW是由BUT Speech@FIT联合JHU CLSP/HLTCOE和CMU LTI开发的目标说话人多说话人自动语音识别模型。该模型基于Whisper large-v3-turbo，通过自注册机制和改进的数据增强技术，在高度重叠的多说话人场景下显著提升了识别准确率。

Transformers

Transformers其他

Orpheus 3b 0.1 Ft GGUF

unsloth

Orpheus TTS 是一款基于 Llama 的先进语音大语言模型（Speech-LLM），专为生成高质量、富有情感的语音而设计。

Transformers

Transformers英语

Speecht5_finetuned_griffin_ch_lu

griffing52

基于microsoft/speecht5_tts微调的语音合成模型，适用于语音合成任务。

Transformers

Speech Emotion Classification

prithivMLmods

基于facebook/wav2vec2-base-960h微调的语音情感分类模型，专门用于从音频信号中准确识别和分类说话者的8种不同情感状态。

Transformers

Transformers英语

Vaani

panchajanya-ai

基于 speechbrain/lang-id-commonlanguage_ecapa 的多语言音频分类模型，支持5种印度语言识别

Speechbrain

Speechbrain支持多种语言

Whisper Small Egyptian Arabic

MAdel121

这是一个针对埃及阿拉伯语方言进行微调的Whisper-small自动语音识别模型，基于SpeechBrain工具包训练

Transformers

Transformers支持多种语言

Viet SpeechT5 TTS Finetuning

danhtran2mind

这是一个基于Microsoft SpeechT5微调的越南语文本转语音模型，能够将越南语文本转换为自然语音，支持男性和女性两种语音输出。

Safetensors

Safetensors其他

Speecht5_finetuned_voxpopuli_it

eeizenman

SpeechT5 是一个基于 Transformer 的文本转语音模型，支持多种语言的语音合成。

Tensorboard

Tensorboard其他

SpeechT5_TTS_Spanish

omarViga

基于微软SpeechT5架构微调的西班牙语文本转语音模型，在mabama-v6数据集上训练

Transformers

Transformers西班牙语

SpeechT5 Elise

suayptalha

基于microsoft/speecht5_tts微调的语音合成模型，支持文本转语音任务

Transformers

Demo_text_to_speech

benjaminogbonna

基于microsoft/speecht5_tts微调的文本转语音模型

Transformers

benjaminogbonna

SpeechT5 Turkish Tuned

ahmeterdempmk

基于微软SpeechT5架构的土耳其语文本转语音模型，经过特定数据集微调优化

Transformers

Speecht5_finetuned_telugu_charan

Epikwhale

基于微软SpeechT5架构微调的泰卢固语文本转语音模型，针对泰卢固语独特的音素结构和文本模式进行了优化。

Transformers

Transformers其他

Speaker Diarization 2.5

Willy030125

基于pyannote/speaker-diarization-3.0修改的说话人分割模型，使用speechbrain/spkrec-ecapa-voxceleb进行说话人嵌入，在某些测试中表现更优

Pyannote.audio

Speecht5_tts_KTH_hu

GaborMadarasz

基于微软SpeechT5微调的匈牙利语文本转语音模型，支持单说话人语音合成

Tensorboard

Tensorboard其他

Speechless Llama3.2 V0.1 I1 GGUF

mradermacher

这是对Menlo/Speechless-llama3.2-v0.1模型进行加权/重要性矩阵量化的结果，提供多种量化版本

自然语言处理

Gguf

Gguf支持多种语言

Speechless Llama3.2 V0.1 GGUF

mradermacher

基于Menlo/Speechless-llama3.2-v0.1的静态量化版本，支持英语和越南语的多语言处理。

自然语言处理

Gguf

Gguf支持多种语言

Speecht5_finetuned_voxpopuli_lt

hungphan111

基于microsoft/speecht5_tts模型在voxpopuli数据集上微调的文本转语音模型

Transformers

Asr Conformer Largescaleasr

speechbrain

这是一个基于SpeechBrain框架训练的端到端自动语音识别系统，使用Conformer架构在25,000小时英文语音数据上训练。

Pytorch

MCP

speech-mcp

Speech Mcp

Speech MCP是为Goose设计的语音交互扩展，提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面，支持多角色对话生成和音频转录功能。

Speech Interface (Faster Whisper)

Speech Interface (Faster Whisper)

Speech MCP 是一个为Goose设计的语音交互扩展，提供实时语音识别、文本转语音和音频可视化功能。

Text To Speech (Windows)

Text To Speech (Windows)

基于Windows原生语音API的语音转换MCP服务

Kokoro Speech

Kokoro Speech

一个基于Kokoro TTS模型的文本转语音MCP服务器，提供高质量的语音合成服务

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

商务合作网站地图