微軟發佈 LLM2CLIP:新 AI 技術使語言模型助力圖像理解
在當今科技領域,CLIP(Contrastive Language-Image Pre-training)是一個重要的多模態基礎模型。它通過在大規模圖像 - 文本對上使用對比學習損失,將視覺信號和文本信號結合到一個共享的特徵空間中。CLIP 作爲檢索器,能夠支持零 - shot 分類、檢測、分割和圖像 - 文本檢索等多種任務。同時,作爲特徵提取器,它在幾乎所有跨模態表示任務中佔據主導地位,例如圖像理解、視頻理解以及文本到圖像或視頻生成。CLIP 的強大之處在於它能夠將圖像與自然語言相連接,並捕捉人類知識,這得益於其在大