小鹏汽车在2026年全球新品发布会上宣布,其新款车型将搭载自研的第二代VLA大模型,这是行业首个具备L4初阶能力的物理世界大模型。该模型标志着智能驾驶系统从“感知-决策”向“理解-推演-生成”新范式的转变,突破了传统依赖规则或有限场景的限制。
小鹏汽车董事长何小鹏在发布会上宣布,公司2026年战略聚焦“物理AI”与“全球化”。这标志着小鹏正加速技术落地与量产进程。何小鹏称2026年将是飞跃之年,计划推出第二代VLA等创新技术,并实现L4级自动驾驶。
小鹏汽车在2026全球新品发布会上宣布,将“物理AI”与“全球化”定为年度核心战略,标志着公司从技术探索转向实践应用。物理AI技术将全面落地并实现规模化量产,同时公布了跨时代的产品交付计划。
原力灵机团队针对现有视觉-语言-行动模型在复杂环境中因依赖2D图像导致空间感知不足的问题,提出了一种新方案,旨在提升机器人对三维空间深度和位置的判断能力。
Alibaba
$1
输入tokens/百万
$10
输出tokens/百万
256
上下文长度
$2
$20
-
$0.8
128
Baidu
32
$1.6
$4
$8
Tencent
$6
$18
$3
$9
VLA-Adapter
VLA-Adapter是一种在Libero-Spatial上训练的微型视觉语言动作模型,采用Prismatic-VLM架构,仅使用Qwen2.5-0.5B作为大语言模型主干。该模型在机器人基准测试中超越了参数规模更大的开源VLA模型,实现了高性能的视觉-语言-动作理解与执行。
vladinc
这是一个基于DistilBERT架构的回归模型,能够根据英文自由文本预测大五人格特质(开放性、责任心、外向性、宜人性和神经质),输出为0.0到1.0之间的连续值。
Hume-vla
Hume-System2是一个双系统视觉-语言-行动(VLA)模型的系统2预训练权重,用于加速系统2的训练,为机器人领域的相关研究和应用提供支持。
UCSC-VLAA
VLAA-Thinker是一个创新的视觉语言模型,能够同时处理图像和文本输入,并生成高质量的文本输出。该模型基于论文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果开发,专注于类似R1的推理能力。
VLAA-Thinker-Qwen2.5-3B是一个类似R1的推理大视觉语言模型,专注于多模态推理任务。该模型在OpenCompass多模态推理排行榜上达到了SOTA性能,支持图像理解和复杂推理能力。
Vladimirlv
基于MIT/ast-finetuned-audioset-10-10-0.4593微调的音频分类模型,专注于心音分类任务,在验证集上达到96.95%的准确率。
CogACT
CogACT是一种基于视觉语言模型(VLM)衍生的新型高级视觉语言动作(VLA)架构,专为机器人操作设计。
CogACT是一种新型视觉语言动作(VLA)架构,结合视觉语言模型与专用动作模块,用于机器人操作任务。