斯坦福大学《2026年AI指数报告》显示,全球AI技术进入全面普及期,中美顶尖技术差距降至历史最低。美国在顶级模型、高影响力专利及数据中心数量上保持优势,但中国已在多项核心指标上实现追赶,形成从“一枝独秀”到“交替领先”的竞争格局。
阿里巴巴旗下高德具身业务部将发布首款四足机器人,这是高德及阿里集团的首款具身机器人产品,标志着其在具身智能领域的布局加速。自今年1月成立该部门以来,高德已发布自研具身导航基座模型,展现出快速的技术推进。
智元机器人将于4月17日在上海举办2026合作伙伴大会,展示其“一体三智”全栈架构下的最新成果,包括四大本体新品和多项技术突破,聚焦“具身生产力”发展。
智元机器人发布新一代具身基座大模型GO-2,旨在打通从逻辑推理到精准动作执行的“最后一公里”。其核心创新是首创“动作思维链”技术,改变了机器人交互逻辑,使其不再“边看边做”,而是通过更系统的思考方式稳定执行任务。
每日更新AI研究新闻,涵盖多领域,用通俗语言解释
Clone是一款具有革命性人工肌肉技术Myofiber的类人机器人,能够自然行走。
Aria Gen 2 是一款用于机器感知、情境 AI 和机器人研究的新型智能眼镜。
Helix 是一款用于通用人形机器人控制的视觉-语言-行动模型。
Openai
$7.7
Input tokens/M
$30.8
Output tokens/M
200
Context Length
Alibaba
$8
$240
52
Tencent
-
$0.4
128
Anthropic
$105
$525
Iflytek
$2
$0.7
$1.95
16
Google
$140
$280
32
$3
$9
$1.4
131
Stepfun
Deepseek
8
AdilZtn
SmolVLA是一款紧凑高效的视觉语言动作模型,能在降低计算成本的情况下取得有竞争力的性能,并可以部署在消费级硬件上。该模型使用LeRobot进行训练,专为机器人技术应用设计。
adityak74
MEDFIT-LLM-3B是一个专门针对医疗问答优化的语言模型,基于Meta的Llama-3.2-3B-Instruct进行微调。该模型通过LoRA技术在医疗数据集上训练,显著提升了医学领域理解和直接回答能力,适用于医疗聊天机器人、患者教育等应用场景。
NiryoTeam
SmolVLA是一个紧凑且高效的视觉语言动作模型,能够在降低计算成本的情况下实现有竞争力的性能,并可以部署在消费级硬件上。该模型通过LeRobot进行训练,专为机器人技术任务设计。
nvidia
NVIDIA Qwen3-8B FP4 模型是阿里巴巴Qwen3-8B模型的量化版本,采用优化的Transformer架构的自回归语言模型。该模型使用FP4量化技术,在保持性能的同时显著减少内存占用和计算需求,适用于AI智能体系统、聊天机器人、RAG系统等应用场景。
GeniusJunP
SmolVLA是一个紧凑高效的视觉-语言-动作模型,能够在降低计算成本的情况下保持有竞争力的性能,适合部署在消费级硬件上。该模型使用LeRobot框架进行训练,专门针对机器人技术任务优化。
SmolVLA是一个紧凑高效的视觉-语言-动作模型,能在降低计算成本的情况下取得有竞争力的性能,可部署在消费级硬件上。该模型使用LeRobot框架训练,专为机器人技术应用设计。
Cosmos-Predict2.5是NVIDIA开发的专为物理AI设计的高性能预训练世界基础模型套件,基于扩散模型技术,能够根据文本、图像或视频输入生成具有物理感知的高质量图像和视频,为自动驾驶、机器人等应用提供世界模拟能力。
NVIDIA Qwen3-30B-A3B FP4是阿里巴巴Qwen3-30B-A3B模型的量化版本,采用优化的Transformer架构,通过FP4量化技术将模型大小减少约3.3倍,同时保持较好的性能表现。该模型支持商业和非商业用途,适用于AI代理系统、聊天机器人、RAG系统等应用场景。
这是DeepSeek AI的DeepSeek V3-0324模型的量化版本,采用优化的Transformer架构,通过FP4量化技术显著减少了模型大小和GPU内存需求,适用于AI智能体系统、聊天机器人等多种AI应用场景。
therarelab
一个基于PyTorch的动作识别模型,适用于机器人技术领域
lerobot
π0+FAST 是一种面向机器人技术的高效动作标记化方案,由Physical Intelligence设计,适用于视觉-语言-动作任务。
moojink
OpenVLA-OFT 是一个经过优化的视觉-语言-动作模型,专为机器人任务设计,通过微调技术提升了速度和成功率。
ConnorJiang
一个基于PyTorch的动作控制模型,适用于机器人技术领域
lerobot 是一个专注于机器人技术的 PyTorch 模型,集成了动作生成和模型中心混合功能。
Stanford-ILIAD
MiniVLA是一个视觉语言动作模型,专注于机器人技术领域,支持图像文本到文本的多模态任务。
MiniVLA是一个更小体积但性能优异的视觉语言动作模型,兼容Prismatic VLMs训练脚本,适用于机器人技术和多模态任务。
MiniVLA是一个10亿参数规模的视觉语言模型,与棱镜视觉语言模型项目代码库兼容,适用于机器人技术和多模态任务。
TrossenRoboticsCommunity
一个基于PyTorch的动作控制模型,专注于机器人技术领域的动作控制任务。
mihdalal
基于机器学习的机器人操作任务运动规划系统,结合神经网络与优化技术生成无碰撞运动轨迹
jimyoung6709
基于机器学习的机器人操作任务运动规划系统,结合神经网络与优化技术生成高效无碰撞轨迹
这是一个包含大量开源AI项目的列表,涵盖了从自然语言处理、图像生成到自动化工作流等多个领域。这些项目旨在帮助开发者利用AI技术构建各种应用,包括聊天机器人、代码生成工具、数据处理系统等。