最近,新加坡国立大学的Wenyi Yu及其团队提出了一项名为video-SALMONN的新技术,它不仅能够理解视频中的视觉帧序列、音频事件和音乐,更重要的是,它能够理解视频中的语音内容。这项技术的提出标志着我们在让机器理解视频内容方面迈出了重要一步。