Sid068
このモデルはTransformersライブラリに基づくモデルであり、具体的な用途や機能についてはさらなる情報の確認が必要です。
sashakunitsyn
強化学習手法で微調整されたBLIP-2 OPT-2.7Bモデルで、長く包括的な画像記述を生成可能
benferns
InstructBLIPはBLIP-2の視覚的指示チューニングバージョンで、視覚と言語処理能力を組み合わせ、画像とテキスト指示に基づいて応答を生成できます。
kpyu
BLIP-2-OPT-2.7Bを基に訓練された一人称視点ビデオ最適化視覚言語モデル、EILEV革新手法でコンテキスト学習能力を喚起
merve
BLIP-2は、画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキスト生成や視覚的質問応答タスクに使用されます。
Gregor
mBLIPはBLIP-2アーキテクチャに基づく多言語視覚-言語モデルで、96言語の画像キャプション生成と視覚質問応答タスクをサポートします。
advaitadasein
BLIP-2はOPT-2.7bを基にした視覚-言語モデルで、画像エンコーダーと大規模言語モデルを凍結し、クエリ変換器を訓練することで画像からテキストを生成します。
Mediocreatmybest
InstructBLIPはBLIP-2をベースにした視覚的指示チューニングモデルで、Flan-T5-xlを言語モデルとして使用し、画像とテキスト指示に基づいて説明を生成できます。
InstructBLIPはBLIP-2の視覚的指示チューニングバージョンで、視覚と言語モデルを組み合わせ、画像とテキスト指示に基づいて説明を生成したり質問に答えたりできます。
BLIP-2はFlan T5-xxlを基にした視覚-言語モデルで、画像エンコーダーと大規模言語モデルを凍結して事前学習を行い、画像キャプション生成や視覚的質問応答などのタスクをサポートします。
InstructBLIPはBLIP-2の視覚的指示チューニング版で、Flan-T5-xl言語モデルを基にした画像からテキストへの生成タスク用です。
getZuma
BLIP-2は、画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキストを生成するタスクに使用されます。
mBLIPは多言語視覚-言語モデルで、BLIP-2アーキテクチャに基づき、96言語の画像キャプション生成と視覚質問応答タスクをサポートします。
BLIP-2は画像エンコーダーと大規模言語モデル(OPT-6.7b)を組み合わせた視覚言語モデルで、画像からテキストを生成するタスクに使用されます。
BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語事前学習モデルで、画像からテキストを生成するタスクに使用されます。
LanguageMachines
BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキストへのタスクに使用されます。
paragon-AI
BLIP-2は視覚言語事前学習モデルで、画像エンコーダーと大規模言語モデルを凍結することで言語-画像事前学習を誘導します。
Salesforce
InstructBLIPはBLIP-2の視覚命令チューニング版で、Vicuna-13b言語モデルを基にした視覚言語タスク用モデルです。
InstructBLIPはBLIP-2を視覚命令チューニングしたバージョンで、画像とテキスト命令に基づいて説明や回答を生成できます
InstructBLIPはBLIP-2を視覚命令ファインチューニングしたバージョンで、画像キャプション生成や視覚質問応答などの視覚言語タスクを実行できます。