NVIDIAがNeurIPS2025で発表したL4自律走行推論モデル「Alpamayo-R1」は、カメラ、LiDAR、テキスト指令を同時処理し、視覚・言語・動作の3モーダル統合アーキテクチャで人間の常識に近い運転判断を実現。....
小鵬汽車が2025年科技デーで第2世代VLAモデルを発表。視覚信号から動作指令へのエンドツーエンド出力を実現し、言語変換不要の新アーキテクチャを確立。量産型物理世界大モデルとして、自動運転・ロボット・飛行車両の知的基盤を提供。....
智元ロボットがViLLAアーキテクチャに基づく初の具身知能モデルGO-1をオープンソース化。視覚・言語・潜在動作を統合し、開発者参入のハードル低減を目的とする。....
智元机器人がGO-1汎用モデルをオープンソース化。ViLLAアーキテクチャを採用し、視覚・言語・動作能力を統合、複雑タスクの処理性能を向上。開発者向けに無料公開。....
Gemini 2.0ベースのロボットモデル。AIを物理世界にもたらし、視覚、言語、動作能力を備えています。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
-
Anthropic
$105
$525
200
$7
$35
$17.5
$21
$0.7
$2.8
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$8
$240
52
$3.9
$15.2
64
Moonshot
$4
$16
Bytedance
$0.8
$0.15
$1.5
bartowski
これはQwen3-VL-30B-A3B-InstructモデルのLlamaCPP量子化バージョンで、先進的な量子化技術によりモデル性能を最適化し、さまざまなハードウェア環境でより効率的に動作するようにしています。マルチモーダル視覚言語理解タスクをサポートします。
lerobot
π₀.₅はPhysical Intelligenceによって開発された視覚 - 言語 - 動作モデルで、オープンワールド汎化能力を備えており、訓練時に一度も見たことのない全く新しい環境やシーンでロボットタスクを実行することができます。
Hume-vla
Hume-Libero_Objectは、Libero-Objectデータセットで訓練されたデュアルシステム視覚-言語-動作モデルで、システム2の思考能力を備え、ロボット分野の研究と応用に適しています。
mlx-community
MedGemma-4B-ITは医療分野に特化した視覚言語モデルで、Googleによって開発され、Appleチップ上で効率的に動作するようMLX形式に変換されました。
declare-lab
オープンXエンボディデータセットでトレーニングされた視覚-言語-動作モデルで、言語命令とカメラ画像を入力としてロボット動作を生成
Noraはオープンソースの視覚 - 言語 - 動作モデルで、Qwen 2.5 VL - 3Bをベースに訓練され、言語指令とカメラ画像に基づいてロボットの動作を生成できます。
moojink
OpenVLA - OFTはOpenVLAモデルを最適化した視覚 - 言語 - 動作モデルで、微調整技術を通じてLIBEROタスクセット上で実行速度と成功率を大幅に向上させました。
CraftJarvis
『マインクラフト』専用に設計された視覚-言語-動作モデルで、人間の言語コマンドに基づいてゲーム内の数千のスキルを実行可能
mbreuss
FlowerVLAはロボット操作タスク向けに事前学習された視覚-言語-動作フロー戦略モデルで、LIBERO 10データセットから訓練され、わずか10億パラメータを含みます。
LZXzju
UI-R1は強化学習によって強化されたGUIエージェントの動作予測を行う視覚言語モデルで、Qwen2.5-VL-3B-Instructを基に構築されています。
FlowerVLAはCALVIN Dデータセット向けに事前学習された視覚-言語-動作フローモデルで、効率的なフローマッチングアーキテクチャを採用し、約10億パラメータで汎用ロボット操作戦略を実現します。
FlowerVLAはロボット操作タスク向けに事前学習された視覚-言語-動作モデルで、CALVIN ABCデータセットで訓練され、効率的なフローマッチングアーキテクチャを採用し、約10億パラメータのみです。
FlowerVLAはCALVIN ABCDデータセット向けに事前学習されたロボット操作モデルで、革新的な視覚-言語-動作フロー戦略を採用し、わずか10億パラメータでロボット学習に特化しています。
IPEC-COMMUNITY
SpatialVLAは視覚-言語-動作モデルで、fractalデータセットでファインチューニングされ、主にロボット制御タスクに使用されます。
このモデルは、bridgeデータセットで微調整された視覚-言語-動作モデルで、Simpler-envベンチマークテスト専用に設計されています。
OpenVLA-OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により基礎となるOpenVLAモデルの性能と速度を大幅に向上させています。
OpenVLA-OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により速度と成功率が大幅に向上しています。
OpenVLA - OFTは最適化された視覚 - 言語 - 動作モデルで、微調整技術により基礎となるOpenVLAモデルの実行速度とタスク成功率を大幅に向上させています。
Pi0は汎用ロボット制御のための視覚-言語-動作フローモデルで、ロボット制御タスクをサポートします。
SpatialVLAは視覚-言語-動作モデルで、基礎モデルをフラクタルとブリッジデータセットでファインチューニングしており、ロボット制御タスク専用に設計されています。