NVIDIAはNeurIPSで新AIインフラとモデルを発表、物理AIの発展を促進し、ロボットや自動運転車の現実世界認識を支援。特に自動運転向け初のオープン推論視覚言語モデル「Alpamayo-R1」をリリースし、テキストと画像処理による車両環境認識能力を向上。....
通義千問にQwen3-VLの2B/32B高密度モデルを追加。軽量から高性能な視覚言語シーンをカバーし、スマホ対応。Instructモデルは応答速度と安定性に優れ、対話システムやツール連携に適する。Thinkingモデルは推論能力を重視。開発の利便性と応用の柔軟性を向上。....
アリババはQwen3-VL視覚言語モデルのコンパクト版(4億/8億パラメータ)を発表。STEM推論、視覚Q&A、OCR等の能力を強化し、エッジデバイス向けマルチモーダルAIを推進。大型モデル並み性能を実現。....
シリコンベースのフローアクセスプラットフォームにアリババのQwen3-VLオープンソースモデルがリリースされました。このモデルは視覚的理解、時系列分析、マルチモーダル推論において顕著な進歩を遂げています。画像のぼけや動画の複雑さなどの課題に対処することができ、視覚認識能力を向上させ、32言語のOCR機能をサポートし、弱い視覚情報の正確な処理が可能となり、ユーザーが複雑な視覚タスクを簡単に処理できるようにします。
大規模言語モデルの視覚推論能力を向上させるための、テキスト迷路解決タスクを用いた革新的な手法
視覚推論能力を強化した実験的な研究モデル
革新的なマルチモーダル連鎖思考フレームワーク。視覚推論能力を向上させます。
視覚言語モデルに空間推論能力を付与します
Openai
$7.7
入力トークン/百万
$30.8
出力トークン/百万
200
コンテキスト長
-
Anthropic
$7
$35
Google
$2.1
$17.5
1k
$21
$105
$0.7
$2.8
Alibaba
$1
$10
256
Baidu
128
$4
$16
$2
$20
Moonshot
Bytedance
$0.8
$0.15
$1.5
32
$54
$163
Deepseek
$12
Tencent
$1.6
XiaomiMiMo
米モデルのエンボディメントモデル(MiMo-Embodied)は、強力なクロスエンボディメント視覚言語モデルであり、自動運転とエンボディメントAIタスクの両方で卓越した性能を発揮します。これは、この2つの重要な分野を結合した最初のオープンソースの視覚言語モデルであり、動的な物理環境における理解と推論能力を大幅に向上させました。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8は、百度のERNIE-4.5アーキテクチャに基づくマルチモーダル大規模言語モデルで、AWQ量子化技術を通じて8ビット精度を実現し、高性能を維持しながらメモリ要件を大幅に削減します。このモデルは、視覚推論、STEM問題解決、画像分析などの分野で優れた性能を発揮し、強力なマルチモーダル理解と推論能力を備えています。
unsloth
Qwen3-VLは通義シリーズの中で最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強力な空間およびビデオ動的理解能力、そして優れたエージェント対話能力を備えています。
Qwen
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、優れたテキスト理解と生成能力、深い視覚感知と推論能力、長文脈サポート、強力な空間およびビデオ動的理解能力、ならびにエージェントインタラクション能力を備えています。このリポジトリはGGUF形式の重みを提供し、CPU、GPUなどのデバイスでの効率的な推論をサポートします。
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8はNVIDIAが開発した量子化視覚言語モデルで、最適化されたTransformerアーキテクチャを採用し、商用画像で三段階のトレーニングを行っています。このモデルは単一画像の推論をサポートし、多言語およびマルチモーダル処理能力を備えており、画像要約、テキスト画像分析などの様々なシーンに適用できます。
LiquidAI
LFM2-VL-3BはLiquid AIが開発したマルチモーダル視覚言語モデルで、LFM2バックボーンアーキテクチャに基づいて構築されており、強力な視覚理解と推論能力を備えており、特に細粒度な感知タスクで優れた性能を発揮します。このモデルは、テキストと画像の入力を効率的に処理することができ、最大512×512解像度の原生画像処理をサポートしています。
mlx-community
これはQwen3-VL-32B-Thinkingモデルを変換した4ビット量子化バージョンで、MLXフレームワークに特化して最適化されています。このモデルは32Bパラメータ規模のマルチモーダル視覚言語モデルで、思考連鎖推論能力を備え、画像とテキストの入力を同時に処理し、高品質のテキスト応答を生成することができます。
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強化された空間とビデオ理解能力、そして強力なインテリジェントエージェント対話能力を備えています。このモデルは2Bパラメータの思考版で、推論能力を特別に強化しています。
Qwen3-VL-32B-Thinking-FP8はQwenシリーズで最も強力な視覚言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化技術を採用し、性能指標は元のBF16モデルとほぼ同じです。このモデルは、優れたテキスト理解と生成能力、深い視覚認識と推論能力、長文脈サポート、強力なエージェント対話能力を備えています。
cpatonn
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、全方位的に総合的にアップグレードされ、卓越したテキスト理解と生成能力、深い視覚感知と推論能力、長いコンテキストサポート、強力な空間およびビデオ動的理解能力、そして優れたインテリジェントエージェント対話能力を備えています。
bartowski
Qwen3-VL-8B-Thinkingのllama.cpp量子化バージョンで、複数の量子化タイプをサポートし、さまざまなハードウェアで効率的に動作します。特に視覚言語理解と推論能力が最適化されています。
QuantTrio
Qwen3-VL-30B-A3B-Thinking-AWQは、Qwen/Qwen3-VL-30B-A3B-Thinkingモデルを量子化したバージョンで、通義シリーズの中で最も強力な視覚言語モデルです。このバージョンは、テキスト理解と生成、視覚知覚と推論、コンテキスト長、空間およびビデオの動的理解、エージェントインタラクション能力などの面で全面的にアップグレードされています。
Qwen3-VL-30B-A3B-Instruct-AWQはQwen/Qwen3-VL-30B-A3B-Instructに基づく量子化バージョンで、強力な視覚言語処理能力を備え、テキスト理解、視覚認知、推論などの多方面で優れた性能を発揮します。
Qwen3-VLはQwenシリーズの中で最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強力な空間とビデオ動態理解能力、そして優れたインテリジェントエージェント対話能力を備えています。このバージョンはハイブリッドエキスパートモデルアーキテクチャを採用し、強化された推論思考機能をサポートしています。
Qwen3 - VLは通義シリーズで最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚認知と推論能力、長いコンテキストのサポート、強力な空間と動画理解能力、そして優れたインテリジェントエージェント対話能力を備えています。このバージョンは235Bパラメータの思考強化版で、より複雑な推論タスクをサポートします。
PolyU-ChenLab
UniPixel-3Bは、ピクセルレベルの視覚言語理解に使用される統一マルチモーダル大規模言語モデルで、画像/ビデオ分割、領域理解、および新しいPixelQAタスクなど、さまざまな細粒度タスクを柔軟にサポートできます。このモデルは、ビデオ内でオブジェクト中心の指示、分割、および質問応答を統合し、ピクセルレベルの視覚推論能力を実現します。
merve
Isaac 0.1は感知器会社が発表した最初の知覚言語モデルで、20億のパラメータを持ち、現実世界のアプリケーション向けに設計されています。このモデルは効率の面で新しい基準を確立し、それよりも50倍以上大きいモデルと同等またはそれ以上の性能を発揮し、強力な視覚理解と空間推論能力を備えています。
OpenGVLab
InternVL3.5-4Bはオープンソースのマルチモーダルモデルシリーズの中規模バージョンで、汎用性、推論能力、推論効率の面で顕著な進歩を遂げ、GUIインタラクションなどの新機能をサポートしています。このモデルはカスケード強化学習フレームワークと視覚解像度ルーター技術を採用し、効率的なマルチモーダル理解と推論を実現しています。
Kwai-Keye
快手Keye-VLは快手Keyeチームによって開発された最先端のマルチモーダル大規模言語モデルで、ビデオ理解、視覚認知、および推論タスクで卓越した性能を発揮します。1.5バージョンは革新的な高速・低速ビデオコーディング戦略、LongCoTコールドスタートデータパイプライン、および強化学習トレーニング戦略を通じて、ビデオ理解、画像認知、および推論能力において新たな高みに到達し、最大128kトークンの拡張文脈長をサポートします。