AI视频生成技术飞速发展,但主流AI聊天机器人却难以识别深度伪造内容。研究显示,面对OpenAI自家Sora生成的虚假视频,ChatGPT识别错误率高达92.5%,暴露了AI在内容真实性判断上的严重短板。
日本数据科学家本田崇人推出开源编程语言“Sui”,旨在解决大语言模型生成代码的准确性问题,宣称可实现100%准确率。其设计理念源于日本美学“粋”,强调精炼与去除冗余,核心原则包括保证零语法错误率,并使用数字作为变量。
阿里通义千问发布新一代语音合成模型Qwen3-TTS,免费向全球开发者开放。该模型提供49种多角色音色,支持10种主流语言及10种中国方言,在词错误率上表现优于同类产品,拟人化程度高。音色库涵盖多样角色设定,如“撒娇搞怪茉兔”等,即选即用。
智谱AI推出GLM-ASR系列开源语音识别模型,并发布桌面端“智谱AI输入法”,提升PC语音输入体验。其中GLM-ASR-2512云端模型支持实时转写,在复杂环境中表现优异,字符错误率(CER)极低。
Alibaba
-
Input tokens/M
Output tokens/M
Context Length
Baidu
32
Openai
$14
$56
200
Anthropic
$21
$105
abr-ai
这是一个由Applied Brain Research(ABR)开发的基于状态空间模型(SSM)的英文自动语音识别模型,拥有约1900万参数,能够高效准确地将英文语音转录为文本。该模型在多个基准数据集上表现出色,平均单词错误率仅为10.61%,支持实时语音识别并可在低成本硬件上运行。
adoamesh
本模型是基于OpenAI Whisper-small模型针对斯瓦希里语进行微调的自动语音识别模型。在FLEURS-SLU数据集的斯瓦希里语部分进行训练,显著提升了斯瓦希里语的转录准确率,单词错误率相比基础模型降低了68%。
kalilouisangare
这是一个基于 OpenAI Whisper Small 模型微调的班巴拉语语音识别模型,在 24738 个班巴拉语音频样本上训练,能够将班巴拉语语音准确转录为文本,字符错误率低至 21.69%。
Ken-Z
本模型是基于OpenAI Whisper-small在拉丁语上微调的自动语音识别模型,使用67小时拉丁语音频数据训练,字符错误率(CER)为20,支持拉丁语语音转文本任务。
jacktol
基于OpenAI Whisper Large v3模型微调的航空交通管制语音识别模型,专门针对ATC通信场景优化,在测试集上实现了6.5%的字错误率,显著提升了航空通信转录的准确性。
AbdelrahmanHassan
本模型是基于OpenAI的Whisper Large V3模型,使用LoRA方法在埃及阿拉伯语方言数据集(Egyptian-ASR-MGB-3)上进行微调的自动语音识别模型。它专门优化了对埃及阿拉伯语方言的识别能力,显著提升了在该方言上的词错误率(WER)性能。
IbrahimAmin
这是一个基于wav2vec2-large-xlsr-53架构微调的自动语音识别模型,专门针对埃及阿拉伯语、现代标准阿拉伯语和海湾/黎凡特阿拉伯语进行优化。模型在多种阿拉伯语语音数据集上训练,在通用语音17.0阿拉伯语测试集上达到27.20%的词错误率,优于多个同类模型。
vishwasgautam
该模型是基于facebook/wav2vec2-base在LibriSpeech数据集上微调的语音识别模型,在评估集上取得了0.3174的词错误率。
asr-africa
基于facebook/w2v-bert-2.0微调的豪萨语语音识别模型,在500小时豪萨语数据上训练,词错误率7.47%
navin-kumar-j
该模型是基于OpenAI的Whisper Small在泰米尔语Common Voice 17.0数据集上微调的语音识别模型,词错误率(WER)为43.23%。
Tejveer12
基于OpenAI Whisper-large-v3-turbo微调的印度英语口音语音识别模型,在印度英语口音数据集上取得7.99%的词错误率
mozilla-ai
这是一个基于法语数据集微调的Whisper-small语音识别模型,词错误率相比基线模型降低了6.793个百分点。
基于Whisper-large-v3-turbo微调的印度英语口音语音识别模型,词错误率4.39%
Alvenir
基于Whisper Large v3训练的丹麦语语音识别模型,在CoRaL数据集上微调,具有优异的词错误率和字符错误率表现。
KBLab
瑞典国家图书馆发布的Whisper模型,专为瑞典语语音识别优化,相比OpenAI原版显著降低错误率。
瑞典国家图书馆发布的基于Whisper架构的瑞典语语音识别模型,训练数据超过5万小时,显著降低词错误率。
KB-Whisper Base是瑞典国家图书馆发布的瑞典语语音识别模型,基于OpenAI的Whisper架构,在超过50,000小时瑞典语语音数据上训练。相比OpenAI的whisper-large-v3模型,平均降低47%的词错误率(WER),显著提升了瑞典语语音识别的准确率。
seyyaw
基于openai/whisper-small微调的阿姆哈拉语语音识别模型,在评估集上词错误率为2.0538%
NLPVladimir
该模型是基于facebook/wav2vec2-xls-r-300m在common_voice_17_0数据集上微调的俄语自动语音识别(ASR)模型,词错误率(WER)为0.195。
abduaziz
基于OpenAI Whisper-small微调的塔吉克语自动语音识别模型,在Google Fleurs数据集上训练,词错误率24.26%。