マイクロソフト、LLM2CLIPを発表:新たなAI技術で言語モデルによる画像理解を促進
今日のテクノロジー分野において、CLIP(Contrastive Language-Image Pre-training)は重要なマルチモーダル基盤モデルです。大規模な画像・テキストペアに対してコントラスティブ学習損失を用いることで、視覚信号とテキスト信号を共通のフィーチャ空間へと統合します。CLIPは、検索エンジンとしてゼロショット分類、検出、セグメンテーション、画像・テキスト検索などの様々なタスクをサポートします。同時に、特徴抽出器としても、ほぼあらゆる…