SPARC
画像テキストの事前学習における詳細な理解力の向上
一般製品画像画像テキスト事前学習詳細な理解
SPARCは、画像テキストペアの事前学習のためのシンプルな手法です。画像とテキストのペアから、より詳細なマルチモーダル表現を事前学習することを目指しています。スパースな類似度測定と、画像パッチと単語トークンのグループ化を利用し、詳細なシーケンス損失と、グローバルな画像とテキスト埋め込み間の対照損失を組み合わせることで、グローバルとローカルの両方の情報を同時にエンコードする表現を学習します。SPARCは、分類、検索、物体検出、セグメンテーションなど、粗粒度の画像レベルタスクと、詳細な領域レベルタスクの両方で性能向上を示します。さらに、SPARCはモデルの信頼性と画像記述能力を向上させます。
SPARC 最新のトラフィック状況
月間総訪問数
25537072
直帰率
44.24%
平均ページ/訪問
5.9
平均訪問時間
00:04:47