阿里巴巴發佈千問具身智能大模型Qwen-Robot系列,包括操作模型、移動模型和世界模型三大核心,實現機器人操控、導航與物理規律推理協同。其中Qwen-RobotManip通過80維設計,解決了傳統VLA模型在硬件和場景遷移時能力不足的痛點,標誌着大廠在具身智能基礎模型領域的深化佈局。
2026年5月,自變量機器人開源VLA模型Wall-OSS-0.5,實現零樣本部署突破,打破傳統“考前微調”範式,推動具身智能從定製腳本向通用大腦轉變。
小米近日開源了視覺-語言-動作大模型Xiaomi-Robotics-0的真機後訓練全流程,推動具身智能發展。團隊僅用約20小時任務數據訓練,就讓機器人掌握精準收納耳機等高難度操作,展示了快速學習複雜技能的能力。
小米繼2月開源VLA大模型Xiaomi-Robotics-0後,近日公佈其真機後訓練全流程,旨在解決機器人從實驗室到實際生產的“最後一公里”問題。演示中,搭載該模型的機器人僅用20小時訓練便展現出精細操作能力,推動AI機器人成爲開箱即用的生產力工具。
Alibaba
$1
輸入tokens/百萬
$10
輸出tokens/百萬
256
上下文長度
$2
$20
-
$0.8
128
Baidu
32
$1.6
$4
$8
Tencent
$6
$18
$3
$9
VLA-Adapter
VLA-Adapter是一種在Libero-Spatial上訓練的微型視覺語言動作模型,採用Prismatic-VLM架構,僅使用Qwen2.5-0.5B作為大語言模型主幹。該模型在機器人基準測試中超越了參數規模更大的開源VLA模型,實現了高性能的視覺-語言-動作理解與執行。
vladinc
這是一個基於DistilBERT架構的迴歸模型,能夠根據英文自由文本預測大五人格特質(開放性、責任心、外向性、宜人性和神經質),輸出為0.0到1.0之間的連續值。
Hume-vla
Hume-System2是一個雙系統視覺-語言-行動(VLA)模型的系統2預訓練權重,用於加速系統2的訓練,為機器人領域的相關研究和應用提供支持。
UCSC-VLAA
VLAA-Thinker是一個創新的視覺語言模型,能夠同時處理圖像和文本輸入,並生成高質量的文本輸出。該模型基於論文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果開發,專注於類似R1的推理能力。
VLAA-Thinker-Qwen2.5-3B是一個類似R1的推理大視覺語言模型,專注於多模態推理任務。該模型在OpenCompass多模態推理排行榜上達到了SOTA性能,支持圖像理解和複雜推理能力。
Vladimirlv
基於MIT/ast-finetuned-audioset-10-10-0.4593微調的音頻分類模型,專注於心音分類任務,在驗證集上達到96.95%的準確率。
CogACT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
CogACT是一種新型視覺語言動作(VLA)架構,結合視覺語言模型與專用動作模塊,用於機器人操作任務。