小鵬汽車在2026年全球新品發佈會上宣佈,其新款車型將搭載自研的第二代VLA大模型,這是行業首個具備L4初階能力的物理世界大模型。該模型標誌着智能駕駛系統從“感知-決策”向“理解-推演-生成”新範式的轉變,突破了傳統依賴規則或有限場景的限制。
小鵬汽車董事長何小鵬在發佈會上宣佈,公司2026年戰略聚焦“物理AI”與“全球化”。這標誌着小鵬正加速技術落地與量產進程。何小鵬稱2026年將是飛躍之年,計劃推出第二代VLA等創新技術,並實現L4級自動駕駛。
小鵬汽車在2026全球新品發佈會上宣佈,將“物理AI”與“全球化”定爲年度核心戰略,標誌着公司從技術探索轉向實踐應用。物理AI技術將全面落地並實現規模化量產,同時公佈了跨時代的產品交付計劃。
原力靈機團隊針對現有視覺-語言-行動模型在複雜環境中因依賴2D圖像導致空間感知不足的問題,提出了一種新方案,旨在提升機器人對三維空間深度和位置的判斷能力。
Alibaba
$1
輸入tokens/百萬
$10
輸出tokens/百萬
256
上下文長度
$2
$20
-
$0.8
128
Baidu
32
$1.6
$4
$8
Tencent
$6
$18
$3
$9
VLA-Adapter
VLA-Adapter是一種在Libero-Spatial上訓練的微型視覺語言動作模型,採用Prismatic-VLM架構,僅使用Qwen2.5-0.5B作為大語言模型主幹。該模型在機器人基準測試中超越了參數規模更大的開源VLA模型,實現了高性能的視覺-語言-動作理解與執行。
vladinc
這是一個基於DistilBERT架構的迴歸模型,能夠根據英文自由文本預測大五人格特質(開放性、責任心、外向性、宜人性和神經質),輸出為0.0到1.0之間的連續值。
Hume-vla
Hume-System2是一個雙系統視覺-語言-行動(VLA)模型的系統2預訓練權重,用於加速系統2的訓練,為機器人領域的相關研究和應用提供支持。
UCSC-VLAA
VLAA-Thinker是一個創新的視覺語言模型,能夠同時處理圖像和文本輸入,並生成高質量的文本輸出。該模型基於論文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果開發,專注於類似R1的推理能力。
VLAA-Thinker-Qwen2.5-3B是一個類似R1的推理大視覺語言模型,專注於多模態推理任務。該模型在OpenCompass多模態推理排行榜上達到了SOTA性能,支持圖像理解和複雜推理能力。
Vladimirlv
基於MIT/ast-finetuned-audioset-10-10-0.4593微調的音頻分類模型,專注於心音分類任務,在驗證集上達到96.95%的準確率。
CogACT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
CogACT是一種新型視覺語言動作(VLA)架構,結合視覺語言模型與專用動作模塊,用於機器人操作任務。