快手が新多モーダルモデル「Keye-VL-671B-A37B」を発表しオープンソース化。視覚理解・映像分析・数学推論で優れた性能を発揮し、AI技術力を示す。....
アリババがZ-Image画像モデルを開源し、中国語と英語の両言語をサポートし、わずか6Bパラメータで効率的な画像生成と編集が可能で、視覚的品質が優れている。このモデルは通義研究所が開発し、AI技術のトレンドに焦点を当て、開発者が革新的な応用を理解するお手伝いをしている。
NVIDIAはOmniVinciの全モード理解モデルを発表し、複数のベンチマークテストでトップモデルより19.05ポイント高い結果を出しました。このモデルは0.2兆のトレーニングトークンを使用しており、データ効率が競合の6倍に達しています。視覚、音声、テキストの統一された理解を実現し、機械のマルチモード認知能力の発展を促進することを目的としています。
NVIDIAは全モード理解モデルの「OmniVinci」をリリースしました。ベンチマークテストではトップモデルよりも19.05ポイント高く、トレーニングデータの6分の1で優れたパフォーマンスを実現しました。このモデルは、AIシステムが視覚、音声、テキストを同時に理解し、人間の多感覚的な世界の認識を模倣することを目的としています。
視覚理解と生成を統合したマルチモーダル生成モデルです。
Aya Visionは、Cohereが提供する多言語?多モーダルなビジュアルモデルであり、多言語環境における視覚とテキストの理解能力の向上を目指しています。
視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル
視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
-
Anthropic
$105
$525
200
$0.7
$2.8
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
pramjana
Qwen3-VL-4B-Instructはアリババが開発した40億パラメータの視覚言語モデルで、Qwen3アーキテクチャに基づいて開発され、マルチモーダル理解と対話タスクをサポートします。このモデルは強力な画像理解とテキスト生成能力を備え、複雑な視覚言語対話シーンを処理することができます。
XiaomiMiMo
米モデルのエンボディメントモデル(MiMo-Embodied)は、強力なクロスエンボディメント視覚言語モデルであり、自動運転とエンボディメントAIタスクの両方で卓越した性能を発揮します。これは、この2つの重要な分野を結合した最初のオープンソースの視覚言語モデルであり、動的な物理環境における理解と推論能力を大幅に向上させました。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8は、百度のERNIE-4.5アーキテクチャに基づくマルチモーダル大規模言語モデルで、AWQ量子化技術を通じて8ビット精度を実現し、高性能を維持しながらメモリ要件を大幅に削減します。このモデルは、視覚推論、STEM問題解決、画像分析などの分野で優れた性能を発揮し、強力なマルチモーダル理解と推論能力を備えています。
ggml-org
これはQwen3-VL-30B-A3B-Instructモデルを変換したGGUF形式のバージョンで、llama.cpp用に最適化されています。このモデルは300億パラメータのマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。
unsloth
Qwen3-VLは通義シリーズの中で最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強力な空間およびビデオ動的理解能力、そして優れたエージェント対話能力を備えています。
lmstudio-community
Qwen3-VL-2B-ThinkingはQwenによって開発された視覚言語モデルで、2Bのパラメータ規模を持ち、MLXを使用して8ビット量子化が行われ、Apple Siliconチップに特化した最適化が施されています。このモデルは画像とテキストのマルチモーダル理解と生成タスクをサポートしています。
Qwen
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、優れたテキスト理解と生成能力、深い視覚感知と推論能力、長文脈サポート、強力な空間およびビデオ動的理解能力、ならびにエージェントインタラクション能力を備えています。このリポジトリはGGUF形式の重みを提供し、CPU、GPUなどのデバイスでの効率的な推論をサポートします。
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
LiquidAI
LFM2-VL-3BはLiquid AIが開発したマルチモーダル視覚言語モデルで、LFM2バックボーンアーキテクチャに基づいて構築されており、強力な視覚理解と推論能力を備えており、特に細粒度な感知タスクで優れた性能を発揮します。このモデルは、テキストと画像の入力を効率的に処理することができ、最大512×512解像度の原生画像処理をサポートしています。
cpatonn
Qwen3-VL-32B-Instruct AWQ - INT4は、Qwen3-VL-32B-Instructベースモデルの4ビット量子化バージョンで、AWQ量子化方法を採用し、性能を維持しながら、ストレージと計算リソースの要件を大幅に削減します。これはQwenシリーズで最も強力な視覚言語モデルで、テキスト理解、視覚知覚、文脈長などの面で全面的にアップグレードされています。
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強化された空間とビデオ理解能力、そして強力なインテリジェントエージェント対話能力を備えています。このモデルは2Bパラメータの思考版で、推論能力を特別に強化しています。
Qwen3-VL-32B-Thinking-FP8はQwenシリーズで最も強力な視覚言語モデルのFP8量子化バージョンで、ブロックサイズ128の細粒度fp8量子化技術を採用し、性能指標は元のBF16モデルとほぼ同じです。このモデルは、優れたテキスト理解と生成能力、深い視覚認識と推論能力、長文脈サポート、強力なエージェント対話能力を備えています。
taobao-mnn
Qwen3-VL-8B-Thinking-MNNは、Qwen3-VL-8B-ThinkingからエクスポートされたMNNモデルの4ビット量子化バージョンで、テキスト生成とチャットシーンに最適化され、視覚言語理解タスクをサポートします。
mlx-community
これはQwen3-VL-4B-Instructモデルの4ビット量子化バージョンで、Apple Siliconチップ向けに最適化され、MLXフレームワークを使用して変換されています。このモデルは視覚言語モデルで、画像理解とマルチモーダル対話タスクをサポートします。
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、全方位的に総合的にアップグレードされ、卓越したテキスト理解と生成能力、深い視覚感知と推論能力、長いコンテキストサポート、強力な空間およびビデオ動的理解能力、そして優れたインテリジェントエージェント対話能力を備えています。
これはQwen3-VL-4B-InstructモデルのMLX形式の8ビット量子化バージョンで、mlx-communityによって変換されました。このモデルは40億パラメータのマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートし、命令追従シナリオ向けに最適化されています。
Qwen3-VL-8B-InstructはQwenによって開発された視覚言語モデルで、MLX量子化最適化を経て、Apple Siliconデバイスに特化しています。このモデルは画像とテキストのマルチモーダル入力をサポートし、画像に関連するテキスト内容を理解し生成することができます。
これはQwen3-VL-30B-A3B-Thinkingモデルを変換したMLX形式の視覚言語モデルで、画像理解とマルチモーダル対話をサポートし、bf16精度で最適化されています。
これはQwen3-VL-30B-A3B-Instructモデルの4ビット量子化MLX形式のバージョンで、mlx-communityによって変換および維持されています。このモデルは300億パラメータのマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。
bartowski
これはQwen3-VL-30B-A3B-InstructモデルのLlamaCPP量子化バージョンで、先進的な量子化技術によりモデル性能を最適化し、さまざまなハードウェア環境でより効率的に動作するようにしています。マルチモーダル視覚言語理解タスクをサポートします。
DINO - X MCPは、DINO - XとGrounding DINO 1.6 APIを通じて大規模言語モデルに細粒度の物体検出と画像理解を可能にするプロジェクトです。正確な物体位置特定、数量カウント、属性分析、シーン理解を実現し、自然言語駆動の視覚タスクとワークフロー統合をサポートします。
OmniMCPは、Model Context Protocol (MCP)とOmniParserを通じてAIモデルに豊富なUIコンテキストと相互作用能力を提供するプロジェクトで、視覚認識、LLM計画、アクション実行などの機能をサポートし、ユーザーインターフェイスの深い理解と正確な相互作用を実現します。
OmniMCPは、Model Context Protocol (MCP) とOmniParserを通じてAIモデルに豊富なUIコンテキストとインタラクション機能を提供するツールであり、視覚分析、構造化プランニング、精密なインタラクション実行によるユーザーインターフェイスの深い理解に焦点を当てています。