Meta推出Omnilingual ASR自动语音识别系统,支持转录超1600种口语语言,旨在解决AI工具语言覆盖不足问题。该系统突破传统仅专注少数主流语言的局限,推动实现“通用转录系统”目标,助力弥合全球数千种语言缺乏AI支持的差距。
Anthropic
$105
输入tokens/百万
$525
输出tokens/百万
200
上下文长度
Alibaba
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
-
Xai
$1.4
$10.5
256
$2.4
$12
8
$1.6
$10
Openai
$0.7
$2.8
1k
Google
$0.35
131
$21
128
$3.5
16
$1
speechbrain
这是一个基于SpeechBrain框架训练的端到端自动语音识别系统,使用Conformer架构在25,000小时英文语音数据上训练。
Revai
Rev 的 Reverb ASR 模型基于 20 万小时人工专业转录的英语语音数据训练而成,是目前最精准的开源英语自动语音识别系统之一。
这是一个基于LibriSpeech数据集预训练的端到端自动语音识别系统,支持流式和非流式模式,适用于英文语音识别。
这是一个基于CommonVoice中文数据集训练的端到端自动语音识别系统,使用wav2vec2.0和CTC架构,支持中文语音识别。
这是一个基于CommonVoice西班牙语数据集训练的端到端自动语音识别系统,使用wav2vec 2.0预训练模型结合CTC解码器。
这是一个基于LibriSpeech数据集训练的端到端自动语音识别系统,结合了wav2vec 2.0预训练模型和CTC技术,在英语语音识别任务上表现出色。
aioxlabs
该模型是基于DVoice达里语数据集训练的自动语音识别系统,采用wav2vec 2.0架构,支持摩洛哥阿拉伯方言的语音转录。
classla
这是一个基于斯拉夫语系预训练模型的克罗地亚语自动语音识别系统,专门针对议会语音场景优化
ales
基于facebook/wav2vec2-base模型在Common Voice 8白俄罗斯语数据集上微调的自动语音识别系统
indonesian-nlp
基于Facebook的wav2vec2-large-xlsr-53模型微调而成的卢干达语自动语音识别系统,在Common Voice卢干达语数据集上取得7.53%的WER。
这是一个基于CommonVoice法语数据集训练的端到端自动语音识别系统,采用CRDNN架构结合CTC和注意力机制。
denden
基于WAV2VEC-XLSR-S3微调的伊洛卡诺语音识别模型,专为伊洛卡诺语设计的自动语音识别系统。
这是一个基于CommonVoice英语数据集训练的端到端自动语音识别系统,结合了wav2vec 2.0预训练模型和CTC解码器。
基于SpeechBrain框架预训练的AISHELL(普通话)端到端自动语音识别系统,采用Transformer编码器+联合解码器结构
这是一个基于LibriSpeech数据集预训练的端到端自动语音识别系统,采用CRDNN架构结合CTC/注意力机制和RNN语言模型,在英文语音识别任务上表现优异。
jonatasgrosman
针对波兰语优化的XLSR-53大模型语音识别系统,基于facebook/wav2vec2-large-xlsr-53微调,支持波兰语自动语音识别