格灵深瞳がオープンソース化したビジョン言語表現学習モデルRWKV-CLIP
格灵深瞳は、TransformerとRNNの長所を組み合わせたビジョン言語表現学習器であるRWKV-CLIPモデルをオープンソース化しました。このモデルは、画像とテキストのペアを拡張したデータセット(ウェブサイトから取得)を用いた画像テキスト事前学習タスクを通じて、ビジョンと言語のタスクにおける性能を大幅に向上させています。ノイズデータの問題に対処し、データ品質を向上させるために、研究チームは、大規模言語モデル(LLM)を利用して、Webベースのテキスト、合成字幕、検出ラベルからコンテンツを合成および洗練する多様な記述生成フレームワークを導入しました。