武漢大學聯合中國移動九天人工智能團隊和崑山杜克大學基於YouTube數據開源了超過11萬小時的音視頻說話人識別數據集VoxBlink2。該數據集包含9904382個高質量音頻片段及其相應的視頻片段,來自YouTube上的111284名用戶,是目前最大的公開可用的音視頻說話人識別數據集。數據集的發佈旨在豐富開源語音語料庫,支持訓練聲紋大模型。