在广州市的广州大学,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会于12月6日至7日成功举行。此次大会上,广州大学的哲学社会科学重点实验室发布了全新的 AI-DimSum 粤语语料库平台,这标志着粤语的数字化发展迈入了一个崭新的阶段。
粤语,作为汉语的一个重要方言,全球使用人数超过亿人,但在互联网领域却一直被视为低资源语言。对此,广州大学网络空间安全学院的教授齐佳音指出,AI-DimSum 平台围绕 “数字中文建设” 和粤港大湾区的文化数字化需求,致力于构建一个基于岭南文化、面向人工智能应用的多模态粤语语料数据生态系统。该系统遵循 “标准先行、数据可溯、服务可用” 的原则,为粤语的学习和研究提供了良好的基础。

图源备注:图片由AI生成,图片授权服务商Midjourney
AI-DimSum 平台设有七个子系统,包括语料采集、标注、模型对接、确权检索、质量评估、管理以及应用商店等,形成了一个完整的数据处理链条。这意味着从数据的采集到最终的应用发布,整个过程都可以实现高效的协同工作,推动粤语语料库的构建与管理。
目前,AI-DimSum 粤语语料库已汇聚了超过100万字的文本数据,涵盖新闻、文学和社交媒体等多个领域。此外,该平台还完成了3000小时的高保真语音标注及超过1TB 的音视频资料,其中包括粤语字幕的热门动画和影视作品,如《功夫熊猫》和《小猪佩奇》。平台提供的多用途粤语生活场景音频和文字语料也超过1万句,并收录了丰富的岭南文化图像素材,累计达到10000张。
值得一提的是,AI-DimSum 还构建了一个包含6669条权威词条和30000条扩展词条的粤语安全语料库,以及超过20万道粤语内容安全多模态评测题。这些成果不仅为粤语的学习和应用提供了丰富的资源,也将为未来的粤语大模型开发奠定坚实的基础。





