マイクロソフトは、LLaVAアーキテクチャを継承し、新機能を導入したマルチモーダルモデルLLaVA-1.5をオープンソース化しました。研究者による、ビジュアル質問応答、自然言語処理、画像生成などにおけるテストでは、LLaVA-1.5はオープンソースモデルの中で最高レベルに達していることが示されました。
Marwan02
このモデルはllava-hf/llava-1.5-7b-hfから変換されたGGUF形式モデルで、画像テキスト生成タスクをサポートします。
mradermacher
このプロジェクトは、llava-1.5-13b-hfモデルの重み/行列量子化バージョンを提供し、さまざまな量子化タイプが選択可能で、異なるシナリオでの使用ニーズに対応します。
これはllava-hf/llava-1.5-13b-hfモデルの静的量子化バージョンで、複数の量子化タイプを提供し、ユーザーがこのビジュアル言語モデルをより効率的に使用できるように支援します。モデルは画像理解とテキスト生成タスクをサポートしています。
YuchengShi
LLaVA-1.5-7Bを微調整したマルチモーダル基礎モデルで、植物葉の病害検出と解釈に最適化されています。
Stanford-ILIAD
Llava-1.5-Instructデータセットでトレーニングされたマルチモーダル視覚言語モデルで、Prismaticバージョンと互換性があります。
variante
LLaRAはオープンソースの視覚運動戦略モデルで、LLaVA-7b-v1.5を指示追従データと補助データセットでファインチューニングして訓練され、主にロボット技術研究に使用されます。
Zhiqiang007
Math-LLaVA-13Bはオープンソースのマルチモーダル大規模言語モデルで、LLaVA-1.5-13BをベースにMathV360Kデータセットで微調整され、マルチモーダル推論や質問応答などのシナリオに適しています。
BUAADreamer
LLaVA-1.5アーキテクチャに基づく中国語医療マルチモーダル大規模言語モデルで、医療分野の視覚質問応答タスクに特化しています。
HuggingFaceH4
LLaVA-1.5-7Bモデルを基に視覚的監督ファインチューニング(VSFT)で訓練されたマルチモーダル視覚言語モデルで、画像理解と対話生成をサポート
remyxai
SpaceLLaVAはLLaVA-1.5を改良した視覚言語モデルで、LoRAファインチューニングにより空間推論能力を向上させ、定量的・定性的な空間推論タスクに適しています。
listen2you002
ChartLlamaはLLaVA-1.5アーキテクチャに基づくマルチモーダルモデルで、グラフ理解と分析タスクに特化しています。