最近,新加坡國立大學的Wenyi Yu及其團隊提出了一項名爲video-SALMONN的新技術,它不僅能夠理解視頻中的視覺幀序列、音頻事件和音樂,更重要的是,它能夠理解視頻中的語音內容。這項技術的提出標誌着我們在讓機器理解視頻內容方面邁出了重要一步。