シンガポール国立大学のWenyi Yu氏らの研究チームが、video-SALMONNと呼ばれる新技術を発表しました。この技術は、動画内の視覚フレームシーケンス、音声イベント、音楽を理解できるだけでなく、音声の内容も理解できる点が大きな特徴です。この技術は、機械による動画内容の理解において重要な進歩を示しています。