武漢大学と中国移動九天人工知能チームが音動画話者認識データセットVoxBlink2をオープンソース化
武漢大学と中国移動九天人工知能チーム、昆山杜克大学は、YouTubeデータに基づいて、11万時間以上の音動画話者認識データセットVoxBlink2をオープンソース化しました。このデータセットは、YouTube上の111,284人のユーザーから収集された9,904,382個の高品質オーディオクリップとその対応するビデオクリップを含み、現在公開されている中で最大の音動画話者認識データセットです。このデータセットの公開は、オープンソースの音声コーパスを充実させ、ボイスプリント大規模モデルのトレーニングを支援することを目的としています。