グーグルDeepMindの最新研究は、AIの視覚モデルが全体的には強いが、局所的には弱いという欠点を明らかにし、TIPSv2の解決策を提案しました。この方案は、訓練方法を改良することで、モデルが画像の局所的な詳細をより正確に特定できるようにし、例えばパンダの左後足の位置を識別するなど、視覚-言語モデルにおける細かいセグメンテーションタスクの長期的な課題を解決しました。