MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因
在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。否定在许多应用中至关重要,例如区分 “没有窗户的房间” 和 “有窗户的房间”。尽管 VLMs 取得了显著进展,但在处理否定陈述时,现有模型的表现却大幅下降。这种限制尤其在安全监控和医疗保健等高风险领域中显得尤为重要。现有的 VLMs,如 CLIP,采用共