Xpeng Motorsが2026年グローバル新製品発表会で、新型車に自社開発の第2世代VLA大モデルを搭載すると発表。業界初のL4初段階能力を持つ物理世界大モデルで、知能運転システムが「認識-判断」から「理解-推論-生成」への新パラダイム転換を実現。....
小鵬自動車の会長であるイェ・シャオポン氏は発表で、同社の2026年の戦略は「物理AI」と「グローバル化」に焦点を当てていると発表しました。これは、小鵬が技術の実用化と量産プロセスを加速していることを示しています。イェ氏は2026年が飛躍の年になるとし、第二世代のVLAなどの革新技術を発表することを計画しており、L4レベルの自動運転を実現する予定です。
Xpeng自動車は、2026年グローバル新製品発表会で、「物理AI」と「グローバル化」を年間の核心戦略として発表し、企業が技術探索から実践応用へと転換したことを示しました。物理AI技術は全面的に導入され、スケーラブルな量産が実現され、画期的な製品納入計画も発表されました。
原力霊機チームは、従来の視覚-言語-行動モデルが複雑な環境で2D画像に依存しているため、空間認識が不足している問題に対処するために、新しい方法を提案しました。この方法は、ロボットが3次元空間の深度と位置をより正確に判断できるようにすることを目的としています。
ロボット操作技術の発展を促進する、オープンソースのビジョン?言語?行動(VLA)モデルです。
Alibaba
$1
入力トークン/百万
$10
出力トークン/百万
256
コンテキスト長
$2
$20
-
$0.8
128
Baidu
32
$1.6
$4
$8
Tencent
$6
$18
$3
$9
VLA-Adapter
VLA-Adapterは、Libero-Spatial上で訓練されたマイクロビジョン言語アクションモデルで、Prismatic-VLMアーキテクチャを採用し、大規模言語モデルのバックボーンとしてQwen2.5-0.5Bのみを使用しています。このモデルは、ロボットのベンチマークテストで、パラメータ規模がより大きいオープンソースのVLAモデルを上回り、高性能なビジョン - 言語 - アクションの理解と実行を実現しています。
vladinc
これはDistilBERTアーキテクチャに基づく回帰モデルで、英語の自由テキストに基づいて五大人格特性(開放性、誠実性、外向性、協調性、神経質)を予測し、0.0から1.0の間の連続値を出力します。
Hume-vla
Hume-System2は、デュアルシステムのビジョン - 言語 - 行動(VLA)モデルのシステム2の事前学習重みで、システム2の学習を高速化し、ロボット分野の関連研究やアプリケーションにサポートを提供します。
UCSC-VLAA
VLAA-Thinkerは革新的な視覚言語モデルで、画像とテキストの入力を同時に処理し、高品質なテキスト出力を生成することができます。このモデルは論文「SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models」の研究成果に基づいて開発され、R1に類似した推論能力に焦点を当てています。
VLAA-Thinker-Qwen2.5-3Bは、R1に似た大規模ビジュアル言語推論モデルで、マルチモーダル推論タスクに特化しています。このモデルは、OpenCompassのマルチモーダル推論ランキングでSOTA性能を達成し、画像理解と複雑な推論能力をサポートしています。
Vladimirlv
MIT/ast-finetuned-audioset-10-10-0.4593をベースに微調整したオーディオ分類モデルで、心音分類タスクに特化しており、検証セットで96.95%の精度を達成しています。
CogACT
CogACTは、視覚言語モデル(VLM)に基づいて派生した新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作向けに設計されています。
CogACTは視覚言語モデル(VLM)に基づく新しい高度な視覚言語動作(VLA)アーキテクチャで、ロボット操作のために設計されています。
CogACTは、ロボット操作タスクのための視覚言語モデルと専用動作モジュールを組み合わせた新しい視覚言語動作(VLA)アーキテクチャです。