法国Mistral AI推出Voxtral Transcribe2语音转文字模型系列,包含两款针对不同场景优化的模型。其中,Voxtral Realtime实时转录模型拥有40亿参数,采用流式架构,能在音频输入瞬间同步转录,显著降低延迟和成本。
Scribe 是全球最准确的语音转文字模型,支持99种语言。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
Ken-Z
本模型是基于OpenAI Whisper-small在拉丁语上微调的自动语音识别模型,使用67小时拉丁语音频数据训练,字符错误率(CER)为20,支持拉丁语语音转文本任务。
fsicoli
这是OpenAI Whisper-large-v3模型在cv19-fleurs数据集上的微调版本,专门针对葡萄牙语语音识别任务进行了优化。该模型在评估集上取得了0.0756的字错率(WER),表现出优秀的语音转文本性能。
NbAiLab
该模型是基于chcaa/xls-r-300m-danish在丹麦语数据集上微调的语音识别模型,专门用于丹麦语语音转文本任务,在评估集上取得了6.69%的字错率。
fractalego
基于facebook/wav2vec2-large-robust-ft-swbd-300h模型微调的个人语音转文字模型,针对特定口音优化。
一个基于MCP协议的视频音频文本提取服务器,支持从多平台下载视频并利用Whisper模型进行语音转文字处理