Carbon Robotics推出“大型植物模型”AI,作为激光除草机器人LaserWeeder的智能核心。该模型基于15个国家、100多个农场超1.5亿张高质量图像训练,具备深度植物结构理解能力,显著提升农田除草效率。
蚂蚁集团发布LingBot-VLA模型,专注于机器人复杂操控,通过海量数据训练实现跨形态通用能力。研发团队在9种主流双臂机器人上采集约2万小时真实数据,涵盖丰富动作序列,推动具身智能领域进展。
宇树开源UnifoLM-VLA-0大模型,专为通用人形机器人设计,实现视觉-语言-动作深度融合。该模型突破传统视觉语言模型局限,通过机器人操作数据预训练,推动机器人大脑从图文理解向具备物理常识的具身智能迈进。
蚂蚁集团旗下蚂蚁灵波科技开源具身智能大模型LingBot-VLA及相关代码,验证了模型在不同机器人间的跨本体迁移能力,已适配星海图、松灵、乐聚等多家厂商。通过其开发的后训练工具链,在8卡GPU配置下可高效部署,推动智能机器人技术发展。
无需代码,基于自有数据训练智能AI聊天机器人,快速解决业务问题。
HOMIE 是一种新型的人形机器人遥操作系统,集成人体运动捕捉与强化学习训练框架,用于实现精准的行走与操作任务。
通过玩游戏训练AI机器人,轻松创建定制化游戏机器人。
模块化仿人机器人,用于强化学习训练
Alibaba
$6
Input tokens/M
$24
Output tokens/M
256
Context Length
$8
$240
52
$2
-
Moonshot
$4
$16
Baidu
32
Chatglm
128
Iflytek
$0.7
$1.95
16
$0.5
Google
Huawei
Tencent
28
Openai
$7.7
$30.8
200
$1.6
4
$12
lerobot
π₀.₅是由Physical Intelligence开发的视觉-语言-动作模型,具备开放世界泛化能力,能够在训练时从未见过的全新环境和场景中执行机器人任务。
VLA-Adapter
VLA-Adapter是一种在Libero-Spatial上训练的微型视觉语言动作模型,采用Prismatic-VLM架构,仅使用Qwen2.5-0.5B作为大语言模型主干。该模型在机器人基准测试中超越了参数规模更大的开源VLA模型,实现了高性能的视觉-语言-动作理解与执行。
AdilZtn
SmolVLA是一款紧凑高效的视觉语言动作模型,能在降低计算成本的情况下取得有竞争力的性能,并可以部署在消费级硬件上。该模型使用LeRobot进行训练,专为机器人技术应用设计。
adityak74
MEDFIT-LLM-3B是一个专门针对医疗问答优化的语言模型,基于Meta的Llama-3.2-3B-Instruct进行微调。该模型通过LoRA技术在医疗数据集上训练,显著提升了医学领域理解和直接回答能力,适用于医疗聊天机器人、患者教育等应用场景。
NiryoTeam
SmolVLA是一个紧凑且高效的视觉语言动作模型,能够在降低计算成本的情况下实现有竞争力的性能,并可以部署在消费级硬件上。该模型通过LeRobot进行训练,专为机器人技术任务设计。
GeniusJunP
SmolVLA是一个紧凑高效的视觉-语言-动作模型,能够在降低计算成本的情况下保持有竞争力的性能,适合部署在消费级硬件上。该模型使用LeRobot框架进行训练,专门针对机器人技术任务优化。
SmolVLA是一个紧凑高效的视觉-语言-动作模型,能在降低计算成本的情况下取得有竞争力的性能,可部署在消费级硬件上。该模型使用LeRobot框架训练,专为机器人技术应用设计。
allenai
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2构建,在家庭和桌面环境中的93种操作任务上训练,具有领先的视觉-语言-动作处理能力。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2视觉骨干网络,在家庭和桌面环境中的93种独特操作任务上训练,具有领先的视觉-语言-动作推理性能。
nvidia
Cosmos-Predict2.5是NVIDIA开发的专为物理AI设计的高性能预训练世界基础模型套件,基于扩散模型技术,能够根据文本、图像或视频输入生成具有物理感知的高质量图像和视频,为自动驾驶、机器人等应用提供世界模拟能力。
Hume-vla
Hume-Libero_Object是一个在Libero-Object数据集上训练的双系统视觉-语言-动作模型,具备系统2思维能力,适用于机器人领域的研究和应用。
pepijn223
基于LeRobot训练的机器人策略模型,用于拾取力量宝石的任务
Hume-System2是一个双系统视觉-语言-行动(VLA)模型的系统2预训练权重,用于加速系统2的训练,为机器人领域的相关研究和应用提供支持。
Ziang-Li
基于LeRobot框架训练的机器人策略模型,用于特定任务执行
基于LeRobot框架训练的机器人策略模型,适用于机器人控制任务
declare-lab
基于开放X具身数据集训练的视觉-语言-动作模型,以语言指令和摄像头图像为输入生成机器人动作
Nora是一个开源的视觉-语言-动作模型,基于Qwen 2.5 VL - 3B训练,能够根据语言指令和相机图像生成机器人动作。
Remade-AI
基于Wan2.1 14B I2V 480p模型训练的LoRA,可将任何图像主体转化为展现机器人面部的视频效果
mbreuss
FlowerVLA是一个针对机器人操作任务预训练的视觉-语言-动作流策略模型,训练数据来自LIBERO 10数据集,仅包含10亿参数。
FlowerVLA是一个针对CALVIN D数据集预训练的视觉-语言-动作流模型,采用高效的流匹配架构,仅约10亿参数即可实现通用机器人操作策略。