腾讯搜狗输入法发布20.0版本,宣布全面AI化,从工具升级为智能助手。新版本基于大模型重塑交互逻辑,在语音、打字、翻译三大高频场景实现底层技术升级,核心提升在于更准、更快、更聪明。
腾讯搜狗输入法发布20.0.0纪念版,全面AI化升级。依托腾讯混元大模型,重点提升AI语音、翻译和打字功能。AI语音识别延时降低40%,准确率达98%,方言识别准确率提升30%。
京东科技与乐奇Rokid合作推出全球首款智能眼镜购物应用JoyGlance,结合AI大模型与光波导技术,实现语音交互购物,简化用户操作。
阿里通义千问团队开源Qwen3-TTS系列语音生成模型,采用端到端架构,支持秒级音色克隆、自然语言音色设计和实时流式输出。其核心创新Dual-Track双轨混合流式生成机制结合离散多码本语言模型,实现极致低延迟,大幅降低实时应用门槛。
Voiceley可免费快速进行AI语音克隆,还能使用语音模型生成语音。
先进的文本转语音模型,提供高质量的语音合成服务。
提供语音AI的ASR、TTS和LLM模型,可测试部署用于实时应用。
一款支持中英文的对话语音合成模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
kyr0
这是一个专为苹果硅芯片设备优化的自动语音识别模型,通过转换为MLX框架并量化为FP8格式,实现在苹果设备上的快速端上语音转录。该模型针对逐字精度进行微调,特别适用于需要高精度转录的场景。
ai-sage
GigaAM-v3是基于Conformer架构的俄语自动语音识别基础模型,拥有2.2-2.4亿参数。它是GigaAM系列的第三代模型,在70万小时俄语语音数据上使用HuBERT-CTC目标进行预训练,在广泛的俄语ASR领域提供最先进的性能。
onnx-community
Supertonic-TTS-ONNX是一个基于ONNX格式的文本到语音转换模型,能够将英文文本转换为自然流畅的语音。该模型基于Supertone/supertonic基础模型开发,专为Transformers.js库优化,支持在浏览器环境中高效运行。
pnnbao-ump
VieNeu-TTS-1000h是一款先进的越南语端侧文本转语音模型,基于约1000小时高质量越南语语音数据训练,具备即时语音克隆功能,支持越南语与英语的无缝切换,能在CPU或GPU上实时合成24kHz波形。
nari-labs
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,能够根据对话上下文进行调整,实现自然流畅的对话体验。
Dia2是由Nari Labs开发的流式对话文本转语音(TTS)模型,支持实时语音生成,无需完整文本即可开始生成音频,专为自然对话场景设计。
abr-ai
这是一个由Applied Brain Research(ABR)开发的基于状态空间模型(SSM)的英文自动语音识别模型,拥有约1900万参数,能够高效准确地将英文语音转录为文本。该模型在多个基准数据集上表现出色,平均单词错误率仅为10.61%,支持实时语音识别并可在低成本硬件上运行。
IbrahimSalah
这是一个基于300小时纯净阿拉伯语音频数据微调的文本转语音模型,专门为带完整元音符号的现代标准阿拉伯语提供高质量语音合成,支持声音克隆和长文本处理功能。
Marvis-AI
这是一个基于MLX框架优化的文本转语音模型,从原始模型Marvis-AI/marvis-tts-100m-v0.2转换而来,采用6位量化技术,专门为Apple Silicon硬件优化,提供高效的语音合成能力。
labhamlet
WavJEPA是基于波形的联合嵌入预测架构的音频基础模型,利用高级语义表示学习解决语音单元或标记级表示学习的不足。在众多下游基准任务中显著优于最先进的时域音频基础模型,同时所需计算资源大幅减少。
dinhthuan
NeuTTS-Air越南语文本转语音模型是基于260多万条越南语音频样本,从NeuTTS-Air基础模型微调而来的高质量越南语语音合成模型。该模型能够实现自然流畅的越南语语音合成,支持语音克隆功能,并针对生产环境进行了优化。
ycngin2024
这是一个经过微调的Whisper语音识别模型,基于unsloth/whisper-large-v3-turbo架构,使用Unsloth和Huggingface TRL库实现了2倍训练加速,显著提升了训练效率。
OpenMOSS-Team
MOSS-TTSD是一个开源的双语口语对话合成模型,支持中文和英文,能够将两人对话脚本转化为自然、富有表现力的对话语音,支持语音克隆且单轮语音生成时长最长可达1700秒。
adoamesh
本模型是基于OpenAI Whisper-small模型针对斯瓦希里语进行微调的自动语音识别模型。在FLEURS-SLU数据集的斯瓦希里语部分进行训练,显著提升了斯瓦希里语的转录准确率,单词错误率相比基础模型降低了68%。
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
mradermacher
SoulX-Podcast-1.7B 是一个基于 Soul-AILab/SoulX-Podcast-1.7B 的静态量化版本,专门用于文本转语音任务。该模型支持英语和中文,提供了多种量化版本以适应不同的硬件和性能需求。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
kenpath
Svara-TTS是一款面向印度语言的开源多语言文本转语音模型,支持19种语言(18种印度语言+印度英语)。该模型基于Orpheus风格的离散音频令牌方法构建,旨在普通GPU/CPU上实现清晰、富有表现力且低延迟的语音合成。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立服务运行。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立运行,支持多种录音场景和模型配置。
一个基于MCP协议的视频音频文本提取服务器,支持从多平台下载视频并利用Whisper模型进行语音转文字处理
基于Faster Whisper的高性能语音识别MCP服务器,提供高效的音频转写能力,支持批量处理、多模型尺寸和多种输出格式。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。
TeamSpeak MCP是一个基于Model Context Protocol的服务,用于通过AI模型(如Claude)控制TeamSpeak服务器,提供全面的频道管理、用户权限控制、语音调节等功能。
一个基于Chatterbox TTS模型的简化MCP服务器,提供文本转语音生成及自动播放功能,支持实时进度通知和自动模型加载。
该项目扩展了视频语音识别功能,从仅支持本地Whisper模型,新增支持简影和B站剪辑的在线语音识别服务,提供了灵活的多服务选择架构。
一个基于ClickSend API的MCP服务器,提供短信发送和文本转语音电话功能,支持AI模型程序化操作通讯服务。
MiniMax MCP JS是一个JavaScript/TypeScript实现的MiniMax模型上下文协议工具包,提供文本转语音、图像生成、视频生成和语音克隆等功能,支持多种配置方式和传输模式。
Groq MCP Server是一个通过Model Context Protocol(MCP)提供快速模型推理的服务,支持文本生成、语音转换、图像分析和批量处理等多种功能。
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具,支持图像生成、语音处理、视觉模型等多种AI功能,与Claude Desktop无缝集成。
ExotelMCP是一个模型上下文协议(MCP)服务器,提供Claude AI与Exotel通信API的无缝集成,支持短信、语音通话和快速音频工具服务。
一个基于Kokoro TTS模型的文本转语音MCP服务器,提供高质量的语音合成服务