豆包输入法今日上线小米商店,但暂因维护无法下载。其核心亮点是搭载与豆包App同源的语音技术,支持方言、纯英文及中英混合输入,并优化轻声说话功能,适应多种交互环境。
谷歌在印度推出两项AI反诈功能:基于Gemini Nano的本地实时通话诈骗检测(仅限Pixel9+机型),以及联合金融App的屏幕共享警报(支持Android11+设备),通过语音分析和一键切断共享,防范OTP泄露等诈骗风险。
Perplexity公司推出Android版AI浏览器Comet,延续桌面版核心功能:支持设为默认搜索引擎,通过标签提及功能向AI助手提问,新增语音模式可对已打开页面进行交互查询。
小米AI眼镜固件更新至1.4.16.0,新增抖音直播支持、小爱同学控车功能,并推出“英语口语陪练”特色服务,用户可通过语音指令开启,与小爱同学自然对话,提升英语口语能力,增强设备智能性和用户体验。
AI音频API,提供文本转语音、语音克隆和声音转换功能。
DialLink是一个易于使用的云电话系统,为中小型企业和初创企业提供AI语音代理功能,自动化电话以提高客户满意度和推动增长。
Step-Audio是一个开源智能语音交互框架,支持多语言对话、情感语调和语音克隆等功能。
Zonos-v0.1 是一款具有高保真语音克隆功能的实时文本转语音(TTS)模型。
pnnbao-ump
VieNeu-TTS-1000h是一款先进的越南语端侧文本转语音模型,基于约1000小时高质量越南语语音数据训练,具备即时语音克隆功能,支持越南语与英语的无缝切换,能在CPU或GPU上实时合成24kHz波形。
dinhthuan
NeuTTS-Air越南语文本转语音模型是基于260多万条越南语音频样本,从NeuTTS-Air基础模型微调而来的高质量越南语语音合成模型。该模型能够实现自然流畅的越南语语音合成,支持语音克隆功能,并针对生产环境进行了优化。
malaysia-ai
基于Qwen/Qwen3-1.7B-Base进行继续预训练的多语言语音转换和文本转语音模型,支持多语言、多说话人的语音生成和转换功能。
inclusionAI
铭音通是一个创新的统一语音框架,将语音理解、生成和编辑功能整合为一体。它采用统一的连续语音分词器,能在端到端模型中有效融合语义和声学特征,是首个仅通过自然语言指令就能实现通用、自由形式语音编辑的系统。
Ken-Z
本模型是microsoft/speech-t5的微调版本,专门针对拉丁语进行了优化训练。它使用了来自Vox Classica数据集的67小时拉丁语音频数据进行训练,能够实现高质量的拉丁语文本转语音功能。
neuphonic
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、端侧文本转语音(TTS)语言模型。基于0.5B参数的大语言模型骨干构建,能为本地设备带来自然的语音、实时性能、内置安全性和说话人克隆功能。
NeuTTS Air是全球首个具有即时语音克隆功能的超逼真设备端文本转语音模型,基于0.5B参数的大语言模型骨干构建,能在本地设备上实现自然语音生成、实时性能和说话人克隆功能。
NeuTTS Air是世界上首个具备即时语音克隆功能的超逼真、设备端文本转语音(TTS)语言模型。基于0.5B大语言模型骨干网络构建,能为本地设备带来自然的语音、实时性能、内置安全功能和说话人克隆能力。
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
minpeter
这是Voxtral-Mini-3B-2507的一个特定版本,移除了语音识别功能,仅保留纯语言模型功能。该模型与尚未发布的Ministral-3B-Instruct模型类似,专注于文本生成任务。
Tinysoft
CosyVoice2 是一个专注于文本转语音功能的模型,基于 FunAudioLLM 开发,参数规模为 0.5B。
FluidInference
CoreML Silero VAD是Silero语音活动检测(VAD)模型的CoreML实现,专为苹果平台(iOS/macOS)进行了优化,提供实时语音活动检测功能。
re-skill
Orpheus TTS 是一款基于 Llama 的先进语音大语言模型,专为实现高质量、富有情感的文本转语音功能而设计。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
MALIBA-AI
为班巴拉语提供神经文本转语音合成功能,支持10位地道的班巴拉语发音人,生成高保真音频。
Misha24-10
基于F5-TTS微调的俄语语音合成模型,支持重音标记功能,训练时长超过5000小时。
mrfakename
OpenF5 TTS 是一款基于F5-TTS框架训练的开源文本转语音模型,支持零样本语音克隆功能,采用Apache 2.0许可协议,可商业使用。
Emova-ollm
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
YaTharThShaRma999
Orpheus-3b FT的4位AWQ量化版本,专为文本转语音任务优化,支持语音克隆功能。
RedHatAI
这是OpenAI whisper-large-v3模型的量化版本,通过将权重量化为INT4数据类型,有效提升了推理效率。该模型专门用于语音识别任务,支持多语言语音转文本功能,适用于需要高效语音处理的场景。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
这是一个基于Node.js的MCP服务器项目,通过Model Context Protocol实现AI助手与棒読みちゃん语音合成软件的集成,提供文本转语音功能。
Voice Mode是一个为AI助手提供自然语音对话功能的工具,支持与Claude、ChatGPT等LLM通过MCP协议进行人机语音交互。
Zonos TTS与Claude的MCP集成项目,实现文本转语音功能。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
一个基于Rime API的文本转语音MCP服务器,提供系统音频播放功能。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
Speech MCP 是一个为Goose设计的语音交互扩展,提供实时语音识别、文本转语音和音频可视化功能。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
Rime MCP是一个基于Rime API的文本转语音服务,通过系统原生音频播放器实现语音合成与播放功能。
基于MCP协议的文本转语音服务器项目,通过Groq API实现语音合成功能,支持多种音频格式输出。
Vapi MCP服务器项目通过Model Context Protocol协议提供与Vapi API的集成功能,支持语音助手管理、电话呼叫调度等功能,并兼容Claude Desktop客户端和远程SSE连接。
Zonos MCP集成项目为Claude提供文本转语音功能,通过Model Context Protocol实现直接语音生成,支持多语言和情感语调设置。
基于Asterisk的语音对话电话自动呼叫MCP服务器,支持实时语音转语音功能,提供完整的电话自动化解决方案。
Blabber-MCP是基于OpenAI文本转语音API的MCP服务器,为LLM提供语音输出功能。
VOICEVOX语音合成的MCP服务器,提供队列管理和预加载功能,支持文本转语音和音频文件生成。