通義千問にQwen3-VLの2B/32B高密度モデルを追加。軽量から高性能な視覚言語シーンをカバーし、スマホ対応。Instructモデルは応答速度と安定性に優れ、対話システムやツール連携に適する。Thinkingモデルは推論能力を重視。開発の利便性と応用の柔軟性を向上。....
アリババ通義千問チームは、Qwen3-VLシリーズの2種類の軽量モデルを発表しました。パラメータ数はそれぞれ4Bと8Bです。このシリーズはこれまで最も強力な視覚言語モデルのファミリーで、小規模なパラメータバージョンを追加することで、導入コストを下げる一方で、強力な性能を維持しています。各サイズには指示に従うバージョンと思考プロセス推論バージョンの2種類が用意されており、開発者により柔軟な選択肢を提供します。
アリババはQwen3-VL視覚言語モデルのコンパクト版(4億/8億パラメータ)を発表。STEM推論、視覚Q&A、OCR等の能力を強化し、エッジデバイス向けマルチモーダルAIを推進。大型モデル並み性能を実現。....
シリコンベースのフローアクセスプラットフォームにアリババのQwen3-VLオープンソースモデルがリリースされました。このモデルは視覚的理解、時系列分析、マルチモーダル推論において顕著な進歩を遂げています。画像のぼけや動画の複雑さなどの課題に対処することができ、視覚認識能力を向上させ、32言語のOCR機能をサポートし、弱い視覚情報の正確な処理が可能となり、ユーザーが複雑な視覚タスクを簡単に処理できるようにします。
Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。
8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。
ViDoRAGは、視覚ドキュメント検索を強化した生成のための動的イテレーティブ推論エージェントフレームワークです。
大規模言語モデルの視覚推論能力を向上させるための、テキスト迷路解決タスクを用いた革新的な手法
openai
$14.4
入力トークン/百万
$57.6
出力トークン/百万
200k
コンテキスト長
xai
$72
131.1k
meta
$2.52
$2.88
128k
$0.43
bytedance
$1.5
$4.5
$3
$9
32k
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8はNVIDIAが開発した量子化視覚言語モデルで、最適化されたTransformerアーキテクチャを採用し、商用画像で三段階のトレーニングを行っています。このモデルは単一画像の推論をサポートし、多言語およびマルチモーダル処理能力を備えており、画像要約、テキスト画像分析などの様々なシーンに適用できます。
LiquidAI
LFM2-VL-3BはLiquid AIが開発したマルチモーダル視覚言語モデルで、LFM2バックボーンアーキテクチャに基づいて構築されており、強力な視覚理解と推論能力を備えており、特に細粒度な感知タスクで優れた性能を発揮します。このモデルは、テキストと画像の入力を効率的に処理することができ、最大512×512解像度の原生画像処理をサポートしています。
Qwen
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強化された空間とビデオ理解能力、そして強力なインテリジェントエージェント対話能力を備えています。このモデルは2Bパラメータの思考版で、推論能力を特別に強化しています。
Qwen3-VL-32B-Thinking-FP8はQwenシリーズで最も強力な視覚言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化技術を採用し、性能指標は元のBF16モデルとほぼ同じです。このモデルは、優れたテキスト理解と生成能力、深い視覚認識と推論能力、長文脈サポート、強力なエージェント対話能力を備えています。
cpatonn
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、全方位的に総合的にアップグレードされ、卓越したテキスト理解と生成能力、深い視覚感知と推論能力、長いコンテキストサポート、強力な空間およびビデオ動的理解能力、そして優れたインテリジェントエージェント対話能力を備えています。
Akicou
Qwen3-Omni-30B-A3B-ThinkingモデルのQ4_K_S量子化GGUFバージョンで、テキスト、視覚、オーディオのマルチモーダル処理をサポートし、llama.cppを通じて高効率な推論を実現します。このバージョンは品質を保証しつつ、ファイルサイズを大幅に削減し、推論速度を向上させます。
QuantTrio
Qwen3-VL-30B-A3B-Thinking-AWQは、Qwen/Qwen3-VL-30B-A3B-Thinkingモデルを量子化したバージョンで、通義シリーズの中で最も強力な視覚言語モデルです。このバージョンは、テキスト理解と生成、視覚知覚と推論、コンテキスト長、空間およびビデオの動的理解、エージェントインタラクション能力などの面で全面的にアップグレードされています。
Qwen3-VL-30B-A3B-Instruct-AWQはQwen/Qwen3-VL-30B-A3B-Instructに基づく量子化バージョンで、強力な視覚言語処理能力を備え、テキスト理解、視覚認知、推論などの多方面で優れた性能を発揮します。
Qwen3-VLはQwenシリーズの中で最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強力な空間とビデオ動態理解能力、そして優れたインテリジェントエージェント対話能力を備えています。このバージョンはハイブリッドエキスパートモデルアーキテクチャを採用し、強化された推論思考機能をサポートしています。
PolyU-ChenLab
UniPixel-3Bは、ピクセルレベルの視覚言語理解に使用される統一マルチモーダル大規模言語モデルで、画像/ビデオ分割、領域理解、および新しいPixelQAタスクなど、さまざまな細粒度タスクを柔軟にサポートできます。このモデルは、ビデオ内でオブジェクト中心の指示、分割、および質問応答を統合し、ピクセルレベルの視覚推論能力を実現します。
merve
Isaac 0.1は感知器会社が発表した最初の知覚言語モデルで、20億のパラメータを持ち、現実世界のアプリケーション向けに設計されています。このモデルは効率の面で新しい基準を確立し、それよりも50倍以上大きいモデルと同等またはそれ以上の性能を発揮し、強力な視覚理解と空間推論能力を備えています。
PerceptronAI
Isaac-0.1は感知会社が発表した最初のオープンソースの視覚言語モデルで、20億のパラメータを持ち、現実世界のアプリケーション向けに設計されています。このモデルはマルチモーダル理解と空間推論において優れた性能を発揮し、それよりも50倍以上大きいモデルを上回る性能を達成し、新しい効率基準を確立しました。
OpenGVLab
InternVL3.5-4Bはオープンソースのマルチモーダルモデルシリーズの中規模バージョンで、汎用性、推論能力、推論効率の面で顕著な進歩を遂げ、GUIインタラクションなどの新機能をサポートしています。このモデルはカスケード強化学習フレームワークと視覚解像度ルーター技術を採用し、効率的なマルチモーダル理解と推論を実現しています。
brandonbeiler
これはInternVL3_5-GPT-OSS-20B-A4B-PreviewモデルのFP8動的量子化バージョンで、w8a8技術を用いて最適化され、vLLMに特化した高性能推論デプロイが可能です。このモデルは、視覚言語理解能力を維持しながら、推論速度とメモリ効率を大幅に向上させています。
Kwai-Keye
快手Keye-VLは快手Keyeチームによって開発された最先端のマルチモーダル大規模言語モデルで、ビデオ理解、視覚認知、および推論タスクで卓越した性能を発揮します。1.5バージョンは革新的な高速・低速ビデオコーディング戦略、LongCoTコールドスタートデータパイプライン、および強化学習トレーニング戦略を通じて、ビデオ理解、画像認知、および推論能力において新たな高みに到達し、最大128kトークンの拡張文脈長をサポートします。
KnutJaegersberg
InternVL3_5-38B-Q8_0-GGUFは、OpenGVLabのInternVL3_5-38Bモデルをllama.cppを使って変換したGGUF量子化バージョンです。このモデルは38Bパラメータのマルチモーダル視覚言語モデルで、画像とテキストの連合理解と生成をサポートし、推論効率を最適化するためにQ8_0量子化形式を採用しています。
OmniVinciはNVIDIAが開発した全モーダリティ理解大規模言語モデルで、視覚、テキスト、オーディオ処理および音声インタラクション機能を備え、マルチモーダル推論と理解をサポートします。
ssweens
Kimi-VL-A3B-Thinking-2506は月の暗面が開発したマルチモーダル視覚言語モデルで、画像とテキストの統合的な理解と推論をサポートし、思考連鎖推論能力を備え、複雑な視覚言語タスクを処理できます。
allenai
MolmoActはアレン人工知能研究所によって開発されたオープンソースのロボット操作動作推論モデルで、Qwen2.5 - 7BとSigLip2視覚バックボーンネットワークに基づいて構築され、家庭およびデスクトップ環境における片腕のフランカロボット操作タスクに特化して最適化されています。