先ごろ、小米社が開発したMiMo-VLマルチモーダルモデルがMiMo-7Bの後を引き継ぎ、複数の分野で強力なパフォーマンスを示しています。このモデルは画像、動画、言語の汎用的な質問応答や理解推論などのタスクにおいて、同等サイズのベンチマークとなるQwen2.5-VL-7Bよりも大きくリードしており、GUI Groundingタスクのパフォーマンスは専用モデルと互角以上に達しており、エージェント時代の到来に備えています。
AhmedZaky1
DIMIアラビア語OCR v2は、アラビア語のテキスト認識に特化して最適化された光学式文字認識モデルです。Qwen2.5-VL-7B-Instructをベースに微調整して開発され、v1バージョンに比べて変音符が密集したテキストの処理能力が大幅に向上しています。
allenai
olmOCR-2-7B-1025のFP8量子化バージョンで、Qwen2.5-VL-7B-Instructをベースに微調整され、数式や表などの複雑なOCRシーンを処理するためのビジョン言語モデルです。
OpenGVLab
VideoChat-R1_5-7BはQwen2.5-VL-7B-Instructをベースに構築されたビデオテキストインタラクションモデルで、マルチモーダルタスクをサポートし、特にビデオ質問応答機能に長けています。このモデルは強化微調整により時空間知覚能力を強化し、反復知覚メカニズムを採用してマルチモーダル推論を強化しています。
TIGER-Lab
本プロジェクトはQwen2.5-VL-7B-Instructモデルに基づいており、視覚質問応答タスクに特化しており、画像に関連する質問に正確に回答でき、高い正確性と関連性を備えています。これはマルチモーダル視覚言語モデルであり、画像理解と画像に基づく質問応答インタラクションをサポートします。
TencentARC
ARC-Qwen-Video-7Bは、騰訊ARCラボが開発した現実世界の短動画を理解するためのマルチモーダルモデルで、Qwen2.5-VL-7B-Instructをベースに構築され、音声と動画の同期分析と理解をサポートしています。
Qwen2.5-VL-7B-Instructはアリババの通義千問チームによって開発されたマルチモーダル視覚言語モデルで、70億のパラメータ規模に基づき、視覚的質問応答タスクに特化して最適化トレーニングが行われています。このモデルは画像内容を理解し分析し、正確な自然言語の回答を生成することができます。
nvidia
NVIDIA Qwen2.5-VL-7B-Instruct-FP4は、アリババのQwen2.5-VL-7B-Instructモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、マルチモーダル入力(テキストと画像)をサポートし、さまざまなAIアプリケーションシナリオに適しています。このモデルはTensorRT Model Optimizerを使用してFP4量子化され、NVIDIA GPU上で効率的な推論性能を提供します。
これはQwen2.5-VL-7B-Instructをベースに微調整されたFP8量子化バージョンのOCRモデルで、ドキュメント画像のテキスト認識に特化しており、効率的な大規模ドキュメント処理をサポートします。
chatpig
Qwen2.5-VL-7B-IT-GGUFは強力なマルチモーダルモデルで、テキストと画像からテキストを生成するタスクをサポートし、テキストエンコーディング能力を備え、さまざまなツールと互換性があります。
mradermacher
Qwen2.5-VL-7B-Abliterated-Caption-itの量子化バージョンで、多言語画像記述タスクをサポートします。
これはQwen2.5-VL-7Bモデルに基づく静的量子化バージョンで、画像記述生成タスクに特化し、複数の言語をサポートしています。
olmOCR-7B-0725-FP8は、Qwen2.5-VL-7B-Instructモデルをベースに、olmOCR-mix-0225データセットで微調整した後、FP8バージョンに量子化した文書OCRモデルです。
Qwen2.5-VL-7B-Meteorologyの量化バージョンで、気象、気候などの分野の画像テキスト処理タスクに適しており、さまざまなハードウェア条件下で効率的に動作します。
Qwen2.5-VL-7B-Meteorologyの量化バージョンで、気象関連の画像テキスト処理タスクに適しています。
mobiuslabsgmbh
これはA8W8量子化されたマルチモーダル大規模言語モデルで、Qwen2.5-VL-7B-Instructに基づいており、視覚と言語のタスクをサポートします。
AntResearchNLP
ViLaSR-7Bは、Qwen2.5-VL-7B-Instructをベースに構築された視覚言語モデルで、空間推論能力を強化するために特別に設計されています。思考と視覚図面を交織させる方法により、このモデルは画像テキストからテキストへの変換タスクで優れた性能を発揮し、空間関係情報をより良く理解して処理することができます。
inclusionAI
ViLaSR-7BはQwen2.5-VL-7B-Instructをベースに構築された視覚言語モデルで、マルチモーダルシーンにおける画像とテキストのインタラクションおよび空間推論の問題に特化して最適化されています。思考と視覚的な描画を組み合わせる方法により、空間推論能力を強化しています。
PixelReasonerはQwen2.5-VL-7B-Instructを基にした視覚言語モデルで、好奇心駆動型強化学習で訓練され、画像テキストからテキストへのタスクに特化しています。
unsloth
Qwen2.5-VLはQwenファミリー最新のビジュアル言語モデルで、強力な視覚理解とマルチモーダル処理能力を備え、画像・動画分析と構造化出力をサポートします。
bartowski
Qwen2.5-VL-7B-Instructの量子化バージョンで、llama.cppを使用して量子化されており、マルチモーダルタスクをサポートし、画像からテキストへの変換などのアプリケーションシーンに適しています。