格灵深瞳は、TransformerとRNNの長所を融合させた視覚言語表現学習器であるRWKV-CLIPモデルをオープンソース化しました。このモデルは、ウェブサイトから取得した画像とテキストのペアで拡張されたデータセットを用いた画像テキスト同時学習により、視覚と言語のタスクにおける性能を大幅に向上させています。

ノイズデータの問題を解決し、データ品質を向上させるため、研究チームは多様な記述生成フレームワークを導入しました。このフレームワークは、大規模言語モデル(LLM)を利用して、ウェブベースのテキスト、合成字幕、検出ラベルからコンテンツを合成および洗練します。

RWKV-CLIPモデルは、Transformerの効率的な並列処理とRNNの効率的な推論を組み合わせた双塔アーキテクチャを採用しています。モデルは複数の空間混合とチャネル混合モジュールを積み重ねて構成され、これらのモジュールを通じて入力画像とテキストの深い処理を実現します。空間混合段階では、モデルは注意機構を用いてグローバルな線形計算を行い、チャネルレベルでの特徴の相互作用を強化します。チャネル混合段階では、特徴表現がさらに洗練されます。RWKV-CLIPモデルは、入力強化において、元のテキスト、合成字幕、または生成された記述をランダムに選択してテキスト入力とすることで、モデルの堅牢性を高めています。

微信截图_20240722083639.png

実験結果によると、RWKV-CLIPは、線形プロービング、ゼロショット分類、ゼロショット画像テキスト検索など、複数のダウンストリームタスクにおいて最先端の性能を達成しました。ベースラインモデルと比較して、RWKV-CLIPは大幅な性能向上を実現しています。

RWKV-CLIPモデルのクロスモーダル分析によると、学習された表現は同一モーダル内ではより明確な識別性を示し、画像テキストモーダル空間ではより近い距離を示しており、クロスモーダルアライメント性能が優れていることを示しています。

モデルアドレス:https://wisemodel.cn/models/deepglint/RWKV-CLIP