MOSEL项目:为欧洲AI语言模型打造开源语音数据库
在人工智能快速发展的今天,一个国际研究团队正在为欧洲AI语言模型的发展铺平道路。他们推出了名为MOSEL(Massive Open-source compliant Speech data for European Languages)的项目,为欧盟 24 种官方语言编制了一个全面的开源语音数据集。这一举措旨在推动欧洲开放AI语言模型的发展,挑战目前由英语数据集和大型科技公司专有系统主导的局面。MOSEL项目汇集了来自 18 个不同来源的语音数据,包括CommonVoice、LibriSpeech和VoxPopuli等知名项目。这个庞大的数据库包含了带转录的语音录音和未标记的音频数据