研究人员推出了一种名为 SoM 的全新视觉提示方法,它可以让 OpenAI 的多模态大模型 GPT-4V 在细粒度视觉任务上表现更好。SoM 使用交互式分割模型将图像划分为不同区域,并在每个区域上添加标记,通过这种方式,GPT-4V 可以更好地理解图像中的物体和空间关系,并且能够在多个视觉任务上取得优于专用模型和其他开源多模态模型的性能。这一研究展现了 GPT-4V 在细粒度视觉任务上的潜力。