谷歌DeepMind最新研究揭示AI視覺模型存在“全局強、局部弱”的短板,並提出TIPSv2方案。該方案通過改進訓練方法,使模型能更精準定位圖像局部細節,如識別熊貓左後腿位置,解決了視覺-語言模型在精細分割任務上的長期難題。