人大北郵團隊突破性創新:Ref-AVS技術讓AI更懂人類世界
由中國人民大學、北京郵電大學和上海AI Lab等機構組成的研究團隊開發了一項名爲Ref-AVS的技術,旨在解決人工智能理解複雜物理世界的難題。該技術通過獨特的多模態融合方法,整合視頻對象分割(VOS)、視頻對象參考分割(Ref-VOS)和視聽分割(AVS)信息,使AI系統能夠準確識別並定位視聽場景中的特定物體,無論這些物體是否發聲。爲驗證技術的有效性,研究團隊構建了包含40,020個視頻幀、6,888個物體和20,261個指代表達式的Ref-AVS Bench大規模數據集。Ref-AVS在一系列實驗中展現出卓越的性能,特別是在處理未見過的物體和空引用方面表現出色,證明了其強大的分割能力和泛化能力。這一成果已在ECCV2024上展示,並提供了學習和探索資源,爲AI領域的未來發展開闢了新道路。