12月6日至7日,第十届语言服务高级论坛在广州大学举行。会上,粤语语料库建设与大模型评测实验室发布了AI-DimSum多模态粤语语料库平台,旨在突破粤语作为“低资源语言”的数字化困境。该平台围绕“数字中文建设”和“大湾区文化数字化”需求,构建了多模态语料库,推动粤语在人工智能时代的保护与发展。
广州大学举办第十届语言服务高级论坛,发布AI-DimSum粤语语料库平台,推动粤语数字化发展。粤语作为全球使用人数过亿的汉语方言,在互联网领域长期被视为低资源语言,该平台有望改善这一现状。
Baidu
-
输入tokens/百万
输出tokens/百万
32
上下文长度
8
4
raptorkwok
基于BART架构的粤语到繁体中文翻译模型,在粤语-繁体中文平行语料库上微调得到
CAiRE
基于facebook/wav2vec2-large-xlsr-53模型,使用Common Voice语料库8.0版对粤语进行微调的语音识别模型