AI数据服务商Micro1年收入突破1亿美元,估值达5亿美元,成为增长最快的AI供应链公司。公司从招聘工具转型为“AI专家云”平台,管理数千名跨学科专家,创始人年仅24岁。
未来不远公司推出F1机器人,具备22个关节和轮式底盘,能自动执行起床任务,如推床、拉窗帘、热牛奶等,全程无需遥控。它还能扫地、哄娃,续航8小时,通过RVLA模型离线训练动作,遇障碍自动重试,提升家务效率。
南洋理工大学与上海人工智能实验室联合推出开源框架PhysX-Anything,仅需单张RGB图像即可生成包含几何、关节和物理参数的完整3D资产,可直接用于机器人训练。技术亮点包括:由粗到细的流程,先预测整体物理属性再细化部件;新型压缩3D表示方法,避免视觉优先导致的物理失真。
马斯克宣布xAI下一代模型Grok 5推迟至2026年Q1发布,参数量达6万亿,原生支持视频理解,号称“每GB智能密度”创纪录。采用多模态MoE架构,可解析长视频并回答时序问题,目标领跑通用AI竞赛。训练使用X平台实时数据,正扩建GPU集群。同时披露特斯拉Optimus人形机器人进展。
HOMIE 是一种新型的人形机器人遥操作系统,集成人体运动捕捉与强化学习训练框架,用于实现精准的行走与操作任务。
通过玩游戏训练AI机器人,轻松创建定制化游戏机器人。
模块化仿人机器人,用于强化学习训练
构建、定制和训练您自己的GPT聊天机器人。
Alibaba
$6
输入tokens/百万
$24
输出tokens/百万
256
上下文长度
$8
$240
52
$2
-
Moonshot
$4
$16
Baidu
32
Chatglm
128
Iflytek
$0.7
$1.95
16
$0.5
Google
Huawei
Tencent
28
Openai
$7.7
$30.8
200
$1.6
4
$12
lerobot
π₀.₅是由Physical Intelligence开发的视觉-语言-动作模型,具备开放世界泛化能力,能够在训练时从未见过的全新环境和场景中执行机器人任务。
VLA-Adapter
VLA-Adapter是一种在Libero-Spatial上训练的微型视觉语言动作模型,采用Prismatic-VLM架构,仅使用Qwen2.5-0.5B作为大语言模型主干。该模型在机器人基准测试中超越了参数规模更大的开源VLA模型,实现了高性能的视觉-语言-动作理解与执行。
AdilZtn
SmolVLA是一款紧凑高效的视觉语言动作模型,能在降低计算成本的情况下取得有竞争力的性能,并可以部署在消费级硬件上。该模型使用LeRobot进行训练,专为机器人技术应用设计。
adityak74
MEDFIT-LLM-3B是一个专门针对医疗问答优化的语言模型,基于Meta的Llama-3.2-3B-Instruct进行微调。该模型通过LoRA技术在医疗数据集上训练,显著提升了医学领域理解和直接回答能力,适用于医疗聊天机器人、患者教育等应用场景。
NiryoTeam
SmolVLA是一个紧凑且高效的视觉语言动作模型,能够在降低计算成本的情况下实现有竞争力的性能,并可以部署在消费级硬件上。该模型通过LeRobot进行训练,专为机器人技术任务设计。
GeniusJunP
SmolVLA是一个紧凑高效的视觉-语言-动作模型,能够在降低计算成本的情况下保持有竞争力的性能,适合部署在消费级硬件上。该模型使用LeRobot框架进行训练,专门针对机器人技术任务优化。
SmolVLA是一个紧凑高效的视觉-语言-动作模型,能在降低计算成本的情况下取得有竞争力的性能,可部署在消费级硬件上。该模型使用LeRobot框架训练,专为机器人技术应用设计。
allenai
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2构建,在家庭和桌面环境中的93种操作任务上训练,具有领先的视觉-语言-动作处理能力。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2视觉骨干网络,在家庭和桌面环境中的93种独特操作任务上训练,具有领先的视觉-语言-动作推理性能。
nvidia
Cosmos-Predict2.5是NVIDIA开发的专为物理AI设计的高性能预训练世界基础模型套件,基于扩散模型技术,能够根据文本、图像或视频输入生成具有物理感知的高质量图像和视频,为自动驾驶、机器人等应用提供世界模拟能力。
Hume-vla
Hume-Libero_Object是一个在Libero-Object数据集上训练的双系统视觉-语言-动作模型,具备系统2思维能力,适用于机器人领域的研究和应用。
pepijn223
基于LeRobot训练的机器人策略模型,用于拾取力量宝石的任务
Hume-System2是一个双系统视觉-语言-行动(VLA)模型的系统2预训练权重,用于加速系统2的训练,为机器人领域的相关研究和应用提供支持。
Ziang-Li
基于LeRobot框架训练的机器人策略模型,用于特定任务执行
基于LeRobot框架训练的机器人策略模型,适用于机器人控制任务
declare-lab
基于开放X具身数据集训练的视觉-语言-动作模型,以语言指令和摄像头图像为输入生成机器人动作
Nora是一个开源的视觉-语言-动作模型,基于Qwen 2.5 VL - 3B训练,能够根据语言指令和相机图像生成机器人动作。
Remade-AI
基于Wan2.1 14B I2V 480p模型训练的LoRA,可将任何图像主体转化为展现机器人面部的视频效果
mbreuss
FlowerVLA是一个针对机器人操作任务预训练的视觉-语言-动作流策略模型,训练数据来自LIBERO 10数据集,仅包含10亿参数。
FlowerVLA是一个针对CALVIN D数据集预训练的视觉-语言-动作流模型,采用高效的流匹配架构,仅约10亿参数即可实现通用机器人操作策略。