商湯科技と南洋理工大学S-Labが共同でオープンソースのマルチモーダルモデル「NEO」を発表。アーキテクチャ革新により視覚と言語の深層統合を実現し、同類モデルの1/10の3.9億画像テキストデータで最高レベルの視覚認識性能を達成。大規模データや追加視覚エンコーダー不要で、効率性と汎用性に革新をもたらす。....
中国初の視覚障害児向けAI読み聞かせシステム「小星」が正式リリース。大規模言語モデルを搭載し、スマホやPCから無料で利用可能。本の内容や語義、ストーリーに関する質問に対応し、視覚障害者の読書ニーズをサポートします。....
NVIDIAはNeurIPSで新AIインフラとモデルを発表、物理AIの発展を促進し、ロボットや自動運転車の現実世界認識を支援。特に自動運転向け初のオープン推論視覚言語モデル「Alpamayo-R1」をリリースし、テキストと画像処理による車両環境認識能力を向上。....
NVIDIAがNeurIPS2025で発表したL4自律走行推論モデル「Alpamayo-R1」は、カメラ、LiDAR、テキスト指令を同時処理し、視覚・言語・動作の3モーダル統合アーキテクチャで人間の常識に近い運転判断を実現。....
ラダルはノーコードプラットフォームで、独自のデータを使用して小型言語モデルを微調整できます。データセットを接続し、視覚的な設定でトレーニングし、数分でモデルをデプロイできます。
効率的な視覚符号化技術により、視覚言語モデルのパフォーマンスを向上させます。
Gemini 2.0ベースのロボットモデル。AIを物理世界にもたらし、視覚、言語、動作能力を備えています。
Proxy Liteは、ウェブ自動化タスクに特化した、オープンソースの30億パラメーターの視覚言語モデル(VLM)です。
openai
$18
入力トークン/百万
$72
出力トークン/百万
128k
コンテキスト長
baidu
$3
$15
32k
xai
$14.4
131.1k
meta
$2.52
$2.88
$0.43
pramjana
Qwen3-VL-4B-Instructはアリババが開発した40億パラメータの視覚言語モデルで、Qwen3アーキテクチャに基づいて開発され、マルチモーダル理解と対話タスクをサポートします。このモデルは強力な画像理解とテキスト生成能力を備え、複雑な視覚言語対話シーンを処理することができます。
XiaomiMiMo
米モデルのエンボディメントモデル(MiMo-Embodied)は、強力なクロスエンボディメント視覚言語モデルであり、自動運転とエンボディメントAIタスクの両方で卓越した性能を発揮します。これは、この2つの重要な分野を結合した最初のオープンソースの視覚言語モデルであり、動的な物理環境における理解と推論能力を大幅に向上させました。
noctrex
Jan-v2-VLは、80億のパラメータを持つ視覚言語モデルで、実際のソフトウェア環境(ブラウザやデスクトップアプリなど)で長時間の多段階タスクを実行するために設計されています。このモデルは、言語推論と視覚認知を組み合わせ、複雑な指示に従い、中間状態を維持し、軽微な実行エラーから回復することができます。
prithivMLmods
Jan-v2-VLは80億のパラメータを持つ視覚言語モデルで、ブラウザやデスクトップアプリケーションなどの実際のソフトウェア環境で長周期、多段階のタスクを実行するために設計されています。このモデルは言語推論と視覚認知を密接に結びつけ、複雑な指示に従い、中間状態を維持し、軽度の実行エラーから回復して、安定した持続的なタスク完了を実現します。
cyankiwi
ERNIE-4.5-VL-28B-A3B-Thinking AWQ - INT8は、百度のERNIE-4.5アーキテクチャに基づくマルチモーダル大規模言語モデルで、AWQ量子化技術を通じて8ビット精度を実現し、高性能を維持しながらメモリ要件を大幅に削減します。このモデルは、視覚推論、STEM問題解決、画像分析などの分野で優れた性能を発揮し、強力なマルチモーダル理解と推論能力を備えています。
ggml-org
これはQwen3-VL-30B-A3B-Instructモデルを変換したGGUF形式のバージョンで、llama.cpp用に最適化されています。このモデルは300億パラメータのマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。
unsloth
Qwen3-VLは通義シリーズの中で最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強力な空間およびビデオ動的理解能力、そして優れたエージェント対話能力を備えています。
lmstudio-community
Qwen3-VL-2B-ThinkingはQwenによって開発された視覚言語モデルで、2Bのパラメータ規模を持ち、MLXを使用して8ビット量子化が行われ、Apple Siliconチップに特化した最適化が施されています。このモデルは画像とテキストのマルチモーダル理解と生成タスクをサポートしています。
BAAI
Emu3.5は北京智源人工知能研究院が開発したオリジナルのマルチモーダルモデルで、視覚と言語をまたいで次の状態を連合予測し、一貫した世界モデリングと生成を実現します。エンドツーエンド事前学習と大規模強化学習による事後学習を行うことで、マルチモーダルタスクで卓越した性能を発揮します。
Emu3.5は北京智源人工知能研究院(BAAI)によって開発されたネイティブマルチモーダルモデルで、視覚と言語をまたいで次の状態を連合予測し、一貫した世界モデリングと生成を実現し、マルチモーダルタスクで卓越した性能を発揮します。
Qwen
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、優れたテキスト理解と生成能力、深い視覚感知と推論能力、長文脈サポート、強力な空間およびビデオ動的理解能力、ならびにエージェントインタラクション能力を備えています。このリポジトリはGGUF形式の重みを提供し、CPU、GPUなどのデバイスでの効率的な推論をサポートします。
Lamapi
Next 12Bは、Gemma 3に基づく120億パラメータのマルチモーダル視覚言語モデルで、トルコで最も先進的なオープンソースの視覚言語モデルです。このモデルは、テキストと画像の理解において優れた性能を発揮し、高度な推論とコンテキスト感知型のマルチモーダル出力能力を備えており、特に専門レベルのトルコ語サポートを提供し、同時に幅広い多言語能力も備えています。
mlx-community
DeepSeek-OCR-6bitは、DeepSeek-OCRモデルを変換したMLX形式のバージョンで、Appleチップ向けに最適化されています。これは視覚言語モデルで、強力な光学文字認識能力を備え、画像からテキスト情報を抽出および認識することができます。
richardyoung
olmOCR-2-7B-1025はAllenAIによって開発された高品質のOCR視覚言語モデルで、文書や画像内の文字認識タスクを専門に処理するためのものです。このリポジトリでは、Q8_0量子化方式を用いたGGUF量子化バージョンを提供しており、モデルサイズを小さくしながらも優れた精度を維持しています。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP8はNVIDIAが開発した量子化視覚言語モデルで、最適化されたTransformerアーキテクチャを採用し、商用画像で三段階のトレーニングを行っています。このモデルは単一画像の推論をサポートし、多言語およびマルチモーダル処理能力を備えており、画像要約、テキスト画像分析などの様々なシーンに適用できます。
このプロジェクトでは、慧慧Qwen3-VL-30B-A3B-Instructモデルの量子化バージョンを提供しており、特定のシナリオでのモデルの性能と効率を向上させることを目的としています。これはQwen3-VLアーキテクチャに基づく視覚言語モデルで、画像とテキストのマルチモーダル対話をサポートしています。
LiquidAI
LFM2-VL-3BはLiquid AIが開発したマルチモーダル視覚言語モデルで、LFM2バックボーンアーキテクチャに基づいて構築されており、強力な視覚理解と推論能力を備えており、特に細粒度な感知タスクで優れた性能を発揮します。このモデルは、テキストと画像の入力を効率的に処理することができ、最大512×512解像度の原生画像処理をサポートしています。
cpatonn
Qwen3-VL-32B-Instruct AWQ - INT4は、Qwen3-VL-32B-Instructベースモデルの4ビット量子化バージョンで、AWQ量子化方法を採用し、性能を維持しながら、ストレージと計算リソースの要件を大幅に削減します。これはQwenシリーズで最も強力な視覚言語モデルで、テキスト理解、視覚知覚、文脈長などの面で全面的にアップグレードされています。
これはQwen3-VL-32B-Thinkingモデルを変換した4ビット量子化バージョンで、MLXフレームワークに特化して最適化されています。このモデルは32Bパラメータ規模のマルチモーダル視覚言語モデルで、思考連鎖推論能力を備え、画像とテキストの入力を同時に処理し、高品質のテキスト応答を生成することができます。
Qwen3-VL-2B-Instructは、Qwenチームによって開発された、効率的な画像テキストからテキストへの変換モデルです。このモデルはMLX 8ビット量子化によって最適化されており、特にAppleシリコンチップ搭載のデバイスに適しており、視覚言語タスクを処理し、効率的な解決策を提供することができます。
DINO - X MCPは、DINO - XとGrounding DINO 1.6 APIを通じて大規模言語モデルに細粒度の物体検出と画像理解を可能にするプロジェクトです。正確な物体位置特定、数量カウント、属性分析、シーン理解を実現し、自然言語駆動の視覚タスクとワークフロー統合をサポートします。