Speechify发布原生Windows客户端,从文本转语音工具升级为全栈语音助手。应用集成三类本地AI模型,支持跨应用实时听写与文档转录,对标Superwhisper等竞品。为保障响应速度与隐私,在Copilot+ PC等高性能设备上支持完全本地化运行,用户无需上传音频至云端,即可利用本地NPU或GPU驱动的Whisper模型。
马斯克旗下xAI公司正式推出Grok文本转语音Speech API,使AI助手具备语音交互能力。此举不仅拓展了Grok的多模态功能,更为开发者提供了便捷接口,可将其对话能力集成至各类应用,推动AI生态向更拟人化方向发展。
IBM推出Granite4.01B Speech语音模型,专为边缘计算和企业部署设计。该模型参数量减半,但性能显著提升,支持多语种自动语音识别和双向翻译,新增日语识别和关键词偏置功能,并大幅提高英文转录准确率。
Speechify在Chrome扩展中新增语音检测功能,支持语音输入和语音助手,旨在提升文档处理效率。该功能利用先进语音识别技术,实时纠错并自动删除多余填充词,帮助用户在竞争激烈的语音工具市场中脱颖而出。
FineVoice可将文本转换为超1500种逼真AI语音,支持风格、速度等多方面自定义。
Voco Speech是适用于Mac的离线AI语音克隆和文本转语音工具,有免费额度和无限克隆。
BlabbyAI Chrome扩展,快速准确将语音转换为文本,支持任意网站语音输入。
将您的想法说出来,即可在几秒钟内获得一封专业的邮件,随时发送。
Ken-Z
本模型是microsoft/speech-t5的微调版本,专门针对拉丁语进行了优化训练。它使用了来自Vox Classica数据集的67小时拉丁语音频数据进行训练,能够实现高质量的拉丁语文本转语音功能。
BUT-FIT
SE-DiCoW是由BUT Speech@FIT联合JHU CLSP/HLTCOE和CMU LTI开发的目标说话人多说话人自动语音识别模型。该模型基于Whisper large-v3-turbo,通过自注册机制和改进的数据增强技术,在高度重叠的多说话人场景下显著提升了识别准确率。
unsloth
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型(Speech-LLM),专为生成高质量、富有情感的语音而设计。
griffing52
基于microsoft/speecht5_tts微调的语音合成模型,适用于语音合成任务。
prithivMLmods
基于facebook/wav2vec2-base-960h微调的语音情感分类模型,专门用于从音频信号中准确识别和分类说话者的8种不同情感状态。
panchajanya-ai
基于 speechbrain/lang-id-commonlanguage_ecapa 的多语言音频分类模型,支持5种印度语言识别
MAdel121
这是一个针对埃及阿拉伯语方言进行微调的Whisper-small自动语音识别模型,基于SpeechBrain工具包训练
danhtran2mind
这是一个基于Microsoft SpeechT5微调的越南语文本转语音模型,能够将越南语文本转换为自然语音,支持男性和女性两种语音输出。
eeizenman
SpeechT5 是一个基于 Transformer 的文本转语音模型,支持多种语言的语音合成。
omarViga
基于微软SpeechT5架构微调的西班牙语文本转语音模型,在mabama-v6数据集上训练
suayptalha
基于microsoft/speecht5_tts微调的语音合成模型,支持文本转语音任务
benjaminogbonna
基于microsoft/speecht5_tts微调的文本转语音模型
ahmeterdempmk
基于微软SpeechT5架构的土耳其语文本转语音模型,经过特定数据集微调优化
Epikwhale
基于微软SpeechT5架构微调的泰卢固语文本转语音模型,针对泰卢固语独特的音素结构和文本模式进行了优化。
Willy030125
基于pyannote/speaker-diarization-3.0修改的说话人分割模型,使用speechbrain/spkrec-ecapa-voxceleb进行说话人嵌入,在某些测试中表现更优
GaborMadarasz
基于微软SpeechT5微调的匈牙利语文本转语音模型,支持单说话人语音合成
mradermacher
这是对Menlo/Speechless-llama3.2-v0.1模型进行加权/重要性矩阵量化的结果,提供多种量化版本
基于Menlo/Speechless-llama3.2-v0.1的静态量化版本,支持英语和越南语的多语言处理。
hungphan111
基于microsoft/speecht5_tts模型在voxpopuli数据集上微调的文本转语音模型
speechbrain
这是一个基于SpeechBrain框架训练的端到端自动语音识别系统,使用Conformer架构在25,000小时英文语音数据上训练。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
基于Windows原生语音API的语音转换MCP服务
一个基于Kokoro TTS模型的文本转语音MCP服务器,提供高质量的语音合成服务