長城汽車在2025廣州車展發佈VLA輔助駕駛大模型與CP Master系統,具備聽懂指令、識別潛在危險、推理思考和可靠信任四大能力。首搭魏牌高山/藍山車型,2026年Q2交付。技術採用4D毫米波雷達、8MP視覺和激光雷達融合,提升暗光雨霧下250米識別距離,能檢測輪胎碎片、小動物等異形障礙物。
小鵬汽車在2025科技日發佈第二代VLA模型,實現從視覺信號到動作指令的端到端輸出,突破傳統架構,無需語言轉譯。該模型成爲首個量產物理世界大模型,爲智能駕駛、機器人和飛行汽車等領域提供智能基礎,能力突出。
9月24日,擎朗智能發佈自研VLA大模型KOM2.0,旨在提升機器人在複雜服務環境中的適應能力。CTO唐旋來表示,新模型將顯著增強機器人在不同崗位的服務效能。KOM2.0創新採用時空自適應注意力機制與分層決策推理模塊,使機器人能從實時數據中高效提取關鍵信息。
理想汽車發佈OTA8.0版本,引入全球首個VLA司機大模型,新增54項功能並優化26項體驗。該技術從導航選路、車速設置、加減速與轉彎體驗、盲區路口安全等六個維度提升駕駛體驗。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
VLA-Adapter
VLA-Adapter是一種在Libero-Spatial上訓練的微型視覺語言動作模型,採用Prismatic-VLM架構,僅使用Qwen2.5-0.5B作為大語言模型主幹。該模型在機器人基準測試中超越了參數規模更大的開源VLA模型,實現了高性能的視覺-語言-動作理解與執行。
Hume-vla
Hume-System2是一個雙系統視覺-語言-行動(VLA)模型的系統2預訓練權重,用於加速系統2的訓練,為機器人領域的相關研究和應用提供支持。
UCSC-VLAA
VLAA-Thinker是一個創新的視覺語言模型,能夠同時處理圖像和文本輸入,並生成高質量的文本輸出。該模型基於論文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果開發,專注於類似R1的推理能力。
VLAA-Thinker-Qwen2.5-3B是一個類似R1的推理大視覺語言模型,專注於多模態推理任務。該模型在OpenCompass多模態推理排行榜上達到了SOTA性能,支持圖像理解和複雜推理能力。
CogACT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
CogACT是一種新型視覺語言動作(VLA)架構,結合視覺語言模型與專用動作模塊,用於機器人操作任務。