谷歌DeepMind最新研究揭示AI视觉模型存在“全局强、局部弱”的短板,并提出TIPSv2方案。该方案通过改进训练方法,使模型能更精准定位图像局部细节,如识别熊猫左后腿位置,解决了视觉-语言模型在精细分割任务上的长期难题。