南洋理工大学与上海人工智能实验室联合推出开源框架PhysX-Anything,仅需单张RGB图像即可生成包含几何、关节和物理参数的完整3D资产,可直接用于机器人训练。技术亮点包括:由粗到细的流程,先预测整体物理属性再细化部件;新型压缩3D表示方法,避免视觉优先导致的物理失真。
Y Combinator 2024届明星项目K-Scale Labs宣布停止运营,CEO本・博尔特在Discord公告中透露,公司剩余现金约40万美元,无法交付预售的桌面人形机器人DevKit,即日起启动退订与清算流程。该公司成立于2024年,采用“开源+商品化零部件”策略,将整机成本压至1500美元以下,去年获400万美元种子轮融资,投后估值5000万美元。
宇树科技推出以轮式人形机器人G1-D为核心的全栈解决方案,集成数据采集、处理、标注、审核及资产管理功能,提供一站式AI模型开发支持,涵盖分布式训练、自定义模型开发与部署服务,兼容主流开源模型。
开源项目nanochat大幅降低AI模型训练门槛,仅需100美元即可构建功能完整的聊天AI系统。它提供从数据处理到部署的一键式流程,代码简洁易用,既是实用工具也是教学平台,帮助开发者深入理解大型语言模型训练全流程。
一个开源的AI聊天机器人模板,使用Next.js和Vercel的AI SDK构建。
开源AI桌面机器人,具有表情屏幕、双轴控制台和语音聊天功能。
开源机器人模拟平台,用于生成无限机器人数据和泛化AI。
全栈开源机器人
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
jeevanrushi07
OpenLLaMA 3B v2是一个基于Transformer架构的开源大语言模型,拥有30亿参数。该模型采用MIT许可证,主要用于英文文本生成任务,支持聊天机器人等多种应用场景。
VLA-Adapter
VLA-Adapter是一种在Libero-Spatial上训练的微型视觉语言动作模型,采用Prismatic-VLM架构,仅使用Qwen2.5-0.5B作为大语言模型主干。该模型在机器人基准测试中超越了参数规模更大的开源VLA模型,实现了高性能的视觉-语言-动作理解与执行。
allenai
MolmoAct是由艾伦人工智能研究所开发的开源机器人操作动作推理模型,基于Qwen2.5-7B和SigLip2视觉骨干网络构建,专门针对家庭和桌面环境中的单臂Franka机器人操作任务进行优化。
MolmoAct是由艾伦人工智能研究所开发的全开源机器人操作动作推理模型,基于Qwen2.5-7B和SigLip2视觉骨干网络构建,专门用于家庭和桌面环境中的机器人操作任务。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2构建,在家庭和桌面环境中的93种操作任务上训练,具有领先的视觉-语言-动作处理能力。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2视觉骨干网络,在家庭和桌面环境中的93种独特操作任务上训练,具有领先的视觉-语言-动作推理性能。
gabriellarson
OpenBuddy是一款开源的多语言聊天机器人,支持多种语言,能为用户提供多样化的交流体验。
declare-lab
Nora是一个开源的视觉-语言-动作模型,基于Qwen 2.5 VL - 3B训练,能够根据语言指令和相机图像生成机器人动作。
SpursgoZmy
Table LLaVA 7B是一个开源的多模态聊天机器人,专门设计用于理解表格图像,能够执行表格问答、表格单元格描述和结构理解等多种表格相关任务。该模型基于LLaVA-v1.5架构,使用CLIP-ViT-L-336px作为视觉编码器,Vicuna-v1.5-7B作为基础大语言模型。
nvidia
英伟达Isaac GR00T N1是全球首个面向通用人形机器人推理与技能的开源基础模型,具有20亿参数规模。
Share4oReasoning
一个开源的聊天机器人模型,通过在开源数据上微调整个模型进行训练,可用于多模态模型和聊天机器人的研究。
LeroyDyer
LLaVa是一个开源多模态聊天机器人,通过对LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行微调训练而成,专门为聊天/指令优化的多模态版本LLM。
variante
LLaRA是一个开源视觉运动策略模型,通过微调LLaVA-7b-v1.5在指令跟随数据和辅助数据集上训练而成,主要用于机器人技术研究。
zongzhuofan
MoVA-8B是一个开源的多模态大语言模型,采用从粗到细的机制,自适应地路由和融合特定任务的视觉专家模块,可用于多模态模型和聊天机器人的研究。
Table LLaVA 7B 是一款开源多模态聊天机器人,专为理解各类表格图像并完成多样化表格相关任务而设计。
openvla
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
OpenVLA v0.1 7B是一个开源视觉-语言-动作模型,基于Open X-Embodiment数据集训练,支持多种机器人控制。
llava-hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练,具备优秀的视频理解能力。
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练优化,具备优秀的视频理解能力。
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
MCP是一个标准化LLM交互的开源协议,提供统一框架连接数据源、获取上下文、使用工具和执行标准提示。项目示例展示了如何构建MCP服务器和客户端,实现知识库聊天机器人功能。
这是一个包含大量开源AI项目的列表,涵盖了从自然语言处理、图像生成到自动化工作流等多个领域。这些项目旨在帮助开发者利用AI技术构建各种应用,包括聊天机器人、代码生成工具、数据处理系统等。