numind
NuExtract 2.0は、NuMind社が構造化情報抽出タスク用に特別にトレーニングした一連のマルチモーダルモデルです。この4BバージョンはQwen2.5-VL-3B-Instructをベースに構築されており、テキストと画像の入力をサポートし、多言語処理能力を備え、非構造化データから構造化情報を抽出することができます。
phronetic-ai
Owlet Safety 1はQwen2.5-VL-3B-Instructをベースに微調整されたマルチラベルセキュリティイベント検出モデルで、ビデオ監視におけるセキュリティ活動の識別に特化しており、火災、煙、転倒、襲撃などの複数のセキュリティ関連イベントを同時に検出することができます。
prithivMLmods
Qwen2.5-VL-3B-Instructをベースに微調整されたビジュアルOCRモデルで、ドキュメントレベルのOCR、長文脈の視覚言語理解、数学のLaTeX形式変換に特化しています。
LZXzju
UI-R1-E-3BはQwen2.5-VL-3B-Instructを微調整した効率的なGUI位置特定モデルで、視覚的質問応答タスクに特化し、ユーザーインターフェースのスクリーンショット内での操作要素の位置特定と認識に優れています。
unsloth
Qwen2.5-VLはQwenファミリーの最新の視覚言語モデルで、強力な視覚理解とマルチモーダル処理能力を備えています。
AIML-TUDA
QwenGuard-v1.2-3BはQwen/Qwen2.5-VL-3B-Instructを基に開発された視覚安全保護モデルで、画像コンテンツの安全性を評価します。
TencentBAC
テンセントPCG基礎アルゴリズムセンターによってファインチューニングされたマルチモーダル言語モデルで、Qwen2.5-VL-3B-Instructを基に最適化され、同規模モデルにおいて複数のマルチモーダル推論ベンチマークで最先端の性能を実現
devJy
Qwen2.5-VL-3Bモデルを基にしたファインチューニング版で、UnslothとHuggingface TRLライブラリを使用して訓練され、推論速度が2倍向上
Mungert
Qwen2.5-VL-3B-Instructは3Bパラメータ規模のマルチモーダルモデルで、画像テキスト生成タスクをサポートし、特にllama.cppでの視覚機能サポートを最適化しています。
DevQuasar
Qwen2.5-VL-3B-Instructは3Bパラメータの視覚言語モデルで、画像とテキストからテキストを生成するタスクをサポートします。
omlab
Qwen2.5-VL-3B-Instructをベースにしたゼロショット物体検出モデルで、VLM-R1強化学習によって強化され、オープン語彙検出タスクをサポートします。
hfl
Qwen2.5-VL-3B-InstructのGPTQ-Int3量子化バージョンで、マルチモーダル画像テキスト処理タスクに適しており、VRAM使用量が少なく、推論速度が速い。
UI-R1は強化学習によって強化されたGUIエージェントの動作予測を行う視覚言語モデルで、Qwen2.5-VL-3B-Instructを基に構築されています。
tsystems
Qwen2.5-VL-3B-InstructとColBERT戦略に基づく多言語視覚検索モデルで、動的入力画像解像度と多言語文書検索をサポートします。
Qwen2.5-VL-3B-InstructとColBERT戦略に基づく多言語視覚検索モデルで、動的入力画像解像度をサポートし、ColBERTスタイルのマルチベクトルテキストと画像表現を生成します。
Qwen2.5-VL-3B-Instructをベースにした視覚言語モデルで、数学強化とVLM-R1強化学習トレーニングを経て、数学関連の視覚質問応答タスクに特化しています。
これはQwen2.5-VL-3B-InstructモデルのGPTQ-Int4量子化バージョンで、画像テキストからテキストへのマルチモーダルタスクに適しており、中国語と英語をサポートしています。
Qwen2.5-VL-3B-Instructを基にした視覚言語モデルで、VLM-R1強化学習によって強化され、指示表現理解タスクに特化しています。
Metric-AI
Qwen2.5-VL-3B-InstructをベースにColBERT戦略を採用した多言語視覚検索モデルで、Vidoreベンチマークテストで優れた性能を発揮
RedHatAI
Qwen/Qwen2.5-VL-3B-Instructの量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、重みをINT8、活性化をINT8に量子化しています。