苹果与特拉维夫大学合作推出“原则性粗粒度”技术,通过改变AI语音合成中的验证方式,在保持音质无损的同时,将生成速度提升约40%,突破了传统自回归模型逐个预测声音片段的效率瓶颈。
微信输入法iOS版升级至3.0.0,核心转向语音优先交互。新版重构语音输入,底层大模型全面升级,提升识别速度与准确度,并加强实用性、语言覆盖和隐私保护。最大亮点是新增对15种中国方言的深度支持,如粤语等。
AI语音自动化公司Vida完成400万美元A轮融资,由Trammell Venture Partners领投。其AI语音助手已处理超1亿次客户互动,成为全球企业智能语音代理核心平台。融资将用于加速产品创新、拓展行业应用,巩固全球领先地位。
MiniMax发布新一代语音合成模型Speech 2.6,实现端到端延迟低于250毫秒的实时响应,接近人类对话速度。其革命性Fluent LoRA音色复刻技术显著提升语音自然度和个性化水平,推动语音交互向高自然、低延迟、强定制方向突破发展。
Sayline是一款语音录入工具,语音输入,文字即现,速度超手动打字4倍。
AI代码审查平台,通过自然语音交流实现5倍更快的代码审查速度。
Blobfish AI提供AI呼叫中心培训,包括语音AI辅助、呼叫模拟和反馈,以提高运营员绩效和加快入职速度。
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$0.7
$2.8
Anthropic
$7
$35
200
$21
$105
Alibaba
$8
$240
52
-
$3.9
$15.2
64
$15.8
$12.7
Moonshot
$4
$16
256
Bytedance
$0.8
$2
128
Tencent
$1
32
Openai
$0.35
400
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
NexaAI
基于OpenAI Whisper架构微调的自动语音识别和语音翻译模型,通过减少解码层数量实现显著速度提升,同时保持接近原版的识别质量。
Kokoro是一款8200万参数的开源文本转语音模型,采用轻量级架构但能提供与大型模型相媲美的质量,具有速度快、成本低的优势,采用Apache许可证,适用于生产环境和个人项目
unsloth
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
Gapeleon
专为日语优化的轻量级文本转语音模型,通过层数修剪提升推理速度,支持14种音色
Purfview
Distil-Whisper是Whisper模型的蒸馏版本,针对自动语音识别(ASR)任务进行了优化,提供更快的推理速度。
erax-ai
基于CTranslate2优化的Whisper Large-v3 Turbo越南语增强本地化版,支持多语言语音识别,速度快、准确度高
Daemontatox
Kokoro是一款拥有8200万参数的开源文本转语音模型,以轻量架构提供媲美大型模型的音质,同时显著提升速度和成本效益。
kiriyamaX
Kokoro是一款拥有8200万参数的开源文本转语音模型,以轻量架构实现媲美大型模型的音质,同时提升生成速度并降低计算成本。
freddierice
基于OpenAI Whisper的快速语音识别模型,使用CTranslate2优化推理速度
kotoba-tech
Kotoba-Whisper是由Asahi Ushio与Kotoba Technologies合作开发的日语自动语音识别蒸馏模型,基于Whisper large-v3蒸馏而来,推理速度提升6.3倍。
Crystalcareai
Distil-Whisper是Whisper large-v3的知识蒸馏版本,专注于英语语音识别,提供更快的推理速度同时保持接近原始模型的准确性。
primeline
基于distil-whisper技术的德语语音识别模型,参数量7.56亿,在保持高质量的同时实现更快的推理速度。
distil-whisper
Distil-Whisper是Whisper large-v3的知识蒸馏版本,专注于英语自动语音识别,提供更快的推理速度同时保持接近原始模型的准确性。
Systran
这是一个基于OpenAI Whisper的蒸馏版本英语语音识别模型,专为英语语音转录优化,通过CTranslate2格式提供更快的推理速度和更低的内存占用。
BELLE-2
基于distilwhisper-large-v2微调的中文语音识别模型,速度是whisper-large-v2的5.8倍,参数减少51%
rinna
Nue ASR是一种端到端的日语语音识别模型,集成了预训练的语音和语言模型,识别准确度高且速度快。
Windows TTS MCP Server是一个基于PowerShell的文本转语音服务,为Claude Desktop提供稳定高效的TTS功能,支持语音控制、速度调节和紧急静音等操作。