长城汽车在2025广州车展发布VLA辅助驾驶大模型与CP Master系统,具备听懂指令、识别潜在危险、推理思考和可靠信任四大能力。首搭魏牌高山/蓝山车型,2026年Q2交付。技术采用4D毫米波雷达、8MP视觉和激光雷达融合,提升暗光雨雾下250米识别距离,能检测轮胎碎片、小动物等异形障碍物。
小鹏汽车在2025科技日发布第二代VLA模型,实现从视觉信号到动作指令的端到端输出,突破传统架构,无需语言转译。该模型成为首个量产物理世界大模型,为智能驾驶、机器人和飞行汽车等领域提供智能基础,能力突出。
9月24日,擎朗智能发布自研VLA大模型KOM2.0,旨在提升机器人在复杂服务环境中的适应能力。CTO唐旋来表示,新模型将显著增强机器人在不同岗位的服务效能。KOM2.0创新采用时空自适应注意力机制与分层决策推理模块,使机器人能从实时数据中高效提取关键信息。
理想汽车发布OTA8.0版本,引入全球首个VLA司机大模型,新增54项功能并优化26项体验。该技术从导航选路、车速设置、加减速与转弯体验、盲区路口安全等六个维度提升驾驶体验。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
VLA-Adapter
VLA-Adapter是一种在Libero-Spatial上训练的微型视觉语言动作模型,采用Prismatic-VLM架构,仅使用Qwen2.5-0.5B作为大语言模型主干。该模型在机器人基准测试中超越了参数规模更大的开源VLA模型,实现了高性能的视觉-语言-动作理解与执行。
Hume-vla
Hume-System2是一个双系统视觉-语言-行动(VLA)模型的系统2预训练权重,用于加速系统2的训练,为机器人领域的相关研究和应用提供支持。
UCSC-VLAA
VLAA-Thinker是一个创新的视觉语言模型,能够同时处理图像和文本输入,并生成高质量的文本输出。该模型基于论文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果开发,专注于类似R1的推理能力。
VLAA-Thinker-Qwen2.5-3B是一个类似R1的推理大视觉语言模型,专注于多模态推理任务。该模型在OpenCompass多模态推理排行榜上达到了SOTA性能,支持图像理解和复杂推理能力。
CogACT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
CogACT是一种新型视觉语言动作(VLA)架构,结合视觉语言模型与专用动作模块,用于机器人操作任务。