MOSEL項目:爲歐洲AI語言模型打造開源語音數據庫
在人工智能快速發展的今天,一個國際研究團隊正在爲歐洲AI語言模型的發展鋪平道路。他們推出了名爲MOSEL(Massive Open-source compliant Speech data for European Languages)的項目,爲歐盟 24 種官方語言編制了一個全面的開源語音數據集。這一舉措旨在推動歐洲開放AI語言模型的發展,挑戰目前由英語數據集和大型科技公司專有系統主導的局面。MOSEL項目彙集了來自 18 個不同來源的語音數據,包括CommonVoice、LibriSpeech和VoxPopuli等知名項目。這個龐大的數據庫包含了帶轉錄的語音錄音和未標記的音頻數據