微软发布 LLM2CLIP:新 AI 技术使语言模型助力图像理解
在当今科技领域,CLIP(Contrastive Language-Image Pre-training)是一个重要的多模态基础模型。它通过在大规模图像 - 文本对上使用对比学习损失,将视觉信号和文本信号结合到一个共享的特征空间中。CLIP 作为检索器,能够支持零 - shot 分类、检测、分割和图像 - 文本检索等多种任务。同时,作为特征提取器,它在几乎所有跨模态表示任务中占据主导地位,例如图像理解、视频理解以及文本到图像或视频生成。CLIP 的强大之处在于它能够将图像与自然语言相连接,并捕捉人类知识,这得益于其在大