千问App接入高德扫街榜,推出AI语音代订餐厅功能。用户只需语音说明位置、预算、包厢及家庭友好度等需求,系统即可基于真实商户数据精准筛选。选定后,AI将模拟真人语调自动致电商家沟通。
亚马逊推出AI可穿戴设备Bee,操作简便,一键录音。用户可通过应用自定义按钮功能,如双击标记对话片段、处理对话或同时操作,长按可留语音备忘录或与AI助手对话。Bee具备监听、录音和转写功能,独特之处在于其便捷的交互设计。
三星Family Hub智能冰箱新增语音开关门功能,用户可通过Bixby语音助手控制冰箱门开关,支持超过90度完全打开,方便烹饪时使用。
夸克AI眼镜于12月31日完成首次OTA升级,新增录音纪要、图文备忘录、多意图理解与执行、蓝环支付及社区服务五大功能,并对翻译、行程查询等既有功能进行优化。通过自研语音增强模型与硬件配置,其录音功能现支持十米范围清晰收音与有效降噪。
一体化AI创意平台,集视频、图像、音乐、语音合成等功能于一体。
Levelr提供AI音频修复、母带处理、语音隔离与增强等功能。
免费的一体化AI语音创作平台,支持文本转语音等功能
AI音频API,提供文本转语音、语音克隆和声音转换功能。
Openai
$7.7
Input tokens/M
$30.8
Output tokens/M
200
Context Length
Alibaba
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
Baidu
Tencent
$0.7
$1.95
16
$2.4
$12
8
32
$3
$9
$1.6
$10
Huawei
pnnbao-ump
VieNeu-TTS-1000h是一款先进的越南语端侧文本转语音模型,基于约1000小时高质量越南语语音数据训练,具备即时语音克隆功能,支持越南语与英语的无缝切换,能在CPU或GPU上实时合成24kHz波形。
IbrahimSalah
这是一个基于300小时纯净阿拉伯语音频数据微调的文本转语音模型,专门为带完整元音符号的现代标准阿拉伯语提供高质量语音合成,支持声音克隆和长文本处理功能。
dinhthuan
NeuTTS-Air越南语文本转语音模型是基于260多万条越南语音频样本,从NeuTTS-Air基础模型微调而来的高质量越南语语音合成模型。该模型能够实现自然流畅的越南语语音合成,支持语音克隆功能,并针对生产环境进行了优化。
malaysia-ai
基于Qwen/Qwen3-1.7B-Base进行继续预训练的多语言语音转换和文本转语音模型,支持多语言、多说话人的语音生成和转换功能。
inclusionAI
铭音通是一个创新的统一语音框架,将语音理解、生成和编辑功能整合为一体。它采用统一的连续语音分词器,能在端到端模型中有效融合语义和声学特征,是首个仅通过自然语言指令就能实现通用、自由形式语音编辑的系统。
Ken-Z
本模型是microsoft/speech-t5的微调版本,专门针对拉丁语进行了优化训练。它使用了来自Vox Classica数据集的67小时拉丁语音频数据进行训练,能够实现高质量的拉丁语文本转语音功能。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
minpeter
这是Voxtral-Mini-3B-2507的一个特定版本,移除了语音识别功能,仅保留纯语言模型功能。该模型与尚未发布的Ministral-3B-Instruct模型类似,专注于文本生成任务。
Tinysoft
CosyVoice2 是一个专注于文本转语音功能的模型,基于 FunAudioLLM 开发,参数规模为 0.5B。
FluidInference
CoreML Silero VAD是Silero语音活动检测(VAD)模型的CoreML实现,专为苹果平台(iOS/macOS)进行了优化,提供实时语音活动检测功能。
re-skill
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型,专为实现高质量、富有情感的文本转语音功能而设计。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
MALIBA-AI
为班巴拉语提供神经文本转语音合成功能,支持10位地道的班巴拉语发音人,生成高保真音频。
Misha24-10
基于F5-TTS微调的俄语语音合成模型,支持重音标记功能,训练时长超过5000小时。
mrfakename
OpenF5 TTS 是一款基于F5-TTS框架训练的开源文本转语音模型,支持零样本语音克隆功能,采用Apache 2.0许可协议,可商业使用。
Emova-ollm
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
YaTharThShaRma999
Orpheus-3b FT的4位AWQ量化版本,专为文本转语音任务优化,支持语音克隆功能。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
Zonos TTS与Claude的MCP集成项目,实现文本转语音功能。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
一个基于Rime API的文本转语音MCP服务器,提供系统音频播放功能。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
该项目扩展了视频语音识别功能,从仅支持本地Whisper模型,新增支持简影和B站剪辑的在线语音识别服务,提供了灵活的多服务选择架构。
Rime MCP是一个基于Rime API的文本转语音服务,通过系统原生音频播放器实现语音合成与播放功能。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
基于Asterisk的语音对话电话自动呼叫MCP服务器,支持实时语音转语音功能,提供完整的电话自动化解决方案。
基于MCP协议的文本转语音服务器项目,通过Groq API实现语音合成功能,支持多种音频格式输出。
Zonos MCP集成项目为Claude提供文本转语音功能,通过Model Context Protocol实现直接语音生成,支持多语言和情感语调设置。
Vapi MCP服务器项目通过Model Context Protocol协议提供与Vapi API的集成功能,支持语音助手管理、电话呼叫调度等功能,并兼容Claude Desktop客户端和远程SSE连接。
Blabber-MCP是基于OpenAI文本转语音API的MCP服务器,为LLM提供语音输出功能。