原力灵机发布全球首个具身原生大模型DM0,标志着具身智能迎来里程碑式突破。该模型从零开始训练,赋予机器人直觉能力,加速其融入现实生产力。
阿里巴巴达摩院发布具身智能大脑基础模型RynnBrain,并向开发者开源7个全系列模型,包括30B MoE规模。该模型首次赋予机器人时空记忆与空间推理能力,显著提升智能交互水平,推动国产具身大脑基座模型开源生态发展。
优必选推出开源具身智能大模型Thinker,旨在提升工业人形机器人的空间理解和视觉感知能力,解决现有模型精度低、参数多、实时性差等问题。官方指出,当前机器人大模型面临数据质量参差不齐的挑战。
蚂蚁灵波科技开源具身世界模型LingBot-VA,首次提出自回归视频-动作世界建模框架,将视频生成与机器人控制深度融合。模型可同步生成未来世界状态并输出动作序列,实现“边推演、边行动”。真机评测显示,该模型能有效应对复杂物理交互任务。
开源网站流量分析平台,可检测AI机器人带来的流量,助力企业优化运营。
一个开源的AI聊天机器人模板,使用Next.js和Vercel的AI SDK构建。
开源AI桌面机器人,具有表情屏幕、双轴控制台和语音聊天功能。
开源机器人模拟平台,用于生成无限机器人数据和泛化AI。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
jeevanrushi07
OpenLLaMA 3B v2是一个基于Transformer架构的开源大语言模型,拥有30亿参数。该模型采用MIT许可证,主要用于英文文本生成任务,支持聊天机器人等多种应用场景。
VLA-Adapter
VLA-Adapter是一种在Libero-Spatial上训练的微型视觉语言动作模型,采用Prismatic-VLM架构,仅使用Qwen2.5-0.5B作为大语言模型主干。该模型在机器人基准测试中超越了参数规模更大的开源VLA模型,实现了高性能的视觉-语言-动作理解与执行。
allenai
MolmoAct是由艾伦人工智能研究所开发的开源机器人操作动作推理模型,基于Qwen2.5-7B和SigLip2视觉骨干网络构建,专门针对家庭和桌面环境中的单臂Franka机器人操作任务进行优化。
MolmoAct是由艾伦人工智能研究所开发的全开源机器人操作动作推理模型,基于Qwen2.5-7B和SigLip2视觉骨干网络构建,专门用于家庭和桌面环境中的机器人操作任务。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2构建,在家庭和桌面环境中的93种操作任务上训练,具有领先的视觉-语言-动作处理能力。
MolmoAct是由艾伦人工智能研究所开发的开源动作推理模型,专门用于机器人操作任务。该模型基于Qwen2.5-7B和SigLip2视觉骨干网络,在家庭和桌面环境中的93种独特操作任务上训练,具有领先的视觉-语言-动作推理性能。
gabriellarson
OpenBuddy是一款开源的多语言聊天机器人,支持多种语言,能为用户提供多样化的交流体验。
declare-lab
Nora是一个开源的视觉-语言-动作模型,基于Qwen 2.5 VL - 3B训练,能够根据语言指令和相机图像生成机器人动作。
SpursgoZmy
Table LLaVA 7B是一个开源的多模态聊天机器人,专门设计用于理解表格图像,能够执行表格问答、表格单元格描述和结构理解等多种表格相关任务。该模型基于LLaVA-v1.5架构,使用CLIP-ViT-L-336px作为视觉编码器,Vicuna-v1.5-7B作为基础大语言模型。
nvidia
英伟达Isaac GR00T N1是全球首个面向通用人形机器人推理与技能的开源基础模型,具有20亿参数规模。
Share4oReasoning
一个开源的聊天机器人模型,通过在开源数据上微调整个模型进行训练,可用于多模态模型和聊天机器人的研究。
LeroyDyer
LLaVa是一个开源多模态聊天机器人,通过对LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行微调训练而成,专门为聊天/指令优化的多模态版本LLM。
variante
LLaRA是一个开源视觉运动策略模型,通过微调LLaVA-7b-v1.5在指令跟随数据和辅助数据集上训练而成,主要用于机器人技术研究。
zongzhuofan
MoVA-8B是一个开源的多模态大语言模型,采用从粗到细的机制,自适应地路由和融合特定任务的视觉专家模块,可用于多模态模型和聊天机器人的研究。
Table LLaVA 7B 是一款开源多模态聊天机器人,专为理解各类表格图像并完成多样化表格相关任务而设计。
openvla
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
OpenVLA v0.1 7B是一个开源视觉-语言-动作模型,基于Open X-Embodiment数据集训练,支持多种机器人控制。
llava-hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练,具备优秀的视频理解能力。
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练优化,具备优秀的视频理解能力。
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
这是一个包含大量开源AI项目的列表,涵盖了从自然语言处理、图像生成到自动化工作流等多个领域。这些项目旨在帮助开发者利用AI技术构建各种应用,包括聊天机器人、代码生成工具、数据处理系统等。
MCP是一个标准化LLM交互的开源协议,提供统一框架连接数据源、获取上下文、使用工具和执行标准提示。项目示例展示了如何构建MCP服务器和客户端,实现知识库聊天机器人功能。