SPARCは、画像テキストペアの事前学習のためのシンプルな手法です。画像とテキストのペアから、より詳細なマルチモーダル表現を事前学習することを目指しています。スパースな類似度測定と、画像パッチと単語トークンのグループ化を利用し、詳細なシーケンス損失と、グローバルな画像とテキスト埋め込み間の対照損失を組み合わせることで、グローバルとローカルの両方の情報を同時にエンコードする表現を学習します。SPARCは、分類、検索、物体検出、セグメンテーションなど、粗粒度の画像レベルタスクと、詳細な領域レベルタスクの両方で性能向上を示します。さらに、SPARCはモデルの信頼性と画像記述能力を向上させます。