Cohere公司于2026年3月26日推出开源语音识别模型Cohere Transcribe。该模型拥有20亿参数,专为边缘设备设计,旨在解决语音模型因体积过大导致的延迟问题。通过Apache 2.0协议开源,Cohere希望借助开发者社区完善生态并实现商业化。模型支持14种语言,性能超越主流。
公司发布新一代开源医疗大模型MedGemma 1.5及临床语音识别模型MedASR,强化医疗技术布局。MedGemma 1.5基于Gemma系列,重点提升医学影像理解能力,可处理文本病历、检验报告、医学文献及X光、CT等影像数据,辅助初步筛查与诊断。
智谱团队开源四项视频生成核心技术,包括GLM-4.6V视觉理解、AutoGLM设备控制、GLM-ASR语音识别和GLM-TTS语音合成模型,展示其在多模态领域的最新进展,为视频生成技术发展奠定基础。
智谱AI推出GLM-ASR系列开源语音识别模型,并发布桌面端“智谱AI输入法”,提升PC语音输入体验。其中GLM-ASR-2512云端模型支持实时转写,在复杂环境中表现优异,字符错误率(CER)极低。
开源的前沿语音 AI 模型,支持语音识别和文本转语音。
开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
开源的工业级普通话自动语音识别模型,支持多种应用场景。
Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型,能够提供高质量的语音合成服务。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
onecxi
开源印度语言识别模型,支持从语音输入中检测和分类多种印度语言
FireRedTeam
FireRedASR是一系列支持普通话、中国方言和英语的开源工业级自动语音识别(ASR)模型,在公开的普通话ASR基准测试中实现了新的最先进水平(SOTA),同时具备出色的歌词识别能力。
FireRedASR是一系列支持普通话、汉语方言和英语的开源工业级自动语音识别(ASR)模型,在公开普通话ASR基准测试中达到最新最优(SOTA)水平,同时具备卓越的歌词识别能力。
Revai
Rev 的 Reverb ASR 模型基于 20 万小时人工专业转录的英语语音数据训练而成,是目前最精准的开源英语自动语音识别系统之一。
espnet
OWSM是一个开源Whisper风格语音模型,基于公开数据和ESPnet工具包开发,支持多语言语音识别、翻译等任务。
Xenova
Whisper-large-v3是OpenAI开源的自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
Whisper Tiny 是 OpenAI 开源的轻量级语音识别模型,适用于网页端部署。