小米开源47亿参数机器人模型Xiaomi-Robotics-0,采用MoT混合架构,通过“大脑”与“小脑”协同工作,在消费级显卡上实现实时推理,解决现有VLA模型因推理延迟导致动作迟缓的问题,提升机器人控制效率与泛化能力。
灵波科技开源具身大模型LingBot-VLA,在真实与仿真场景中均表现优异,尤其在GM-100基准测试中展现强大泛化能力,并开放完整训练代码库以降低研发门槛。
蚂蚁集团旗下灵波科技开源具身大模型LingBot-VLA,作为机器人操作的“智能基座”,具备跨本体和跨任务泛化能力,显著降低后训练成本,推动“一脑多机”工程化落地。在GM-100评测基准中,该模型在三个真实机器人平台上表现优异。
NVIDIA与斯坦福大学联合发布通用游戏AI智能体NitroGen,在1000多款游戏、4万小时数据上训练而成,具备强大跨游戏泛化能力。研究团队将开源数据集和模型权重,推动全球AI与游戏研究发展。
智元发布首个通用具身基座大模型GO-1,开创性提出ViLLA架构,推动具身智能发展。
低成本强化视觉语言模型的泛化能力,仅需不到3美元。
零样本视觉跟踪模型,具有运动感知记忆。
学习野外音频视觉数据的机器人操控
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
Moonshot
$4
$16
256
Baidu
-
32
Xai
$1.4
$10.5
Openai
$8.75
$70
400
$1.75
$14
$21
Alibaba
$0.5
128
Tencent
$1
$3
4
Huawei
$2
Google
$0.35
$0.7
131
$1.6
Minimax
Chatglm
$100
Baichuan
GilbertAkham
这是一个基于DeepSeek-R1-Distill-Qwen-1.5B的多任务微调模型,通过LoRA适配器在多个数据集上进行训练,具备强大的多任务泛化和推理能力,能够处理广泛的自然语言和基于推理的任务。
lerobot
π₀.₅是由Physical Intelligence开发的视觉-语言-动作模型,具备开放世界泛化能力,能够在训练时从未见过的全新环境和场景中执行机器人任务。
mldi-lab
Kairos-10M是一款专为跨领域零样本预测设计的时间序列基础模型,拥有约1000万参数。它能处理不同信息密度的异构时间序列数据,无需微调即可在不同领域实现强大的泛化能力。
Kairos-50M是一个拥有5000万参数的时间序列基础模型,专门用于跨不同领域的零样本预测。它采用自适应分词和位置编码技术,能够处理具有不同信息密度的异构时间序列数据,无需微调即可在不同领域实现强大的泛化能力。
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
samuelsimko
这是一个基于Transformer架构的预训练模型,具体功能和特性需要根据实际模型信息补充。模型支持多种下游任务,具备良好的泛化能力。
MonkeyDAnh
这是一个基于RoBERTa-base微调的AI文本检测模型,专门用于区分AI生成文本和人类撰写文本。模型在多个数据集上进行了顺序微调,具备高精度的检测能力和良好的泛化性能。
RedHatAI
专为Qwen/Qwen3-8B设计的推测解码模型,采用EAGLE-3算法提升文本生成效率和质量,通过多个优质数据集训练获得优秀的泛化能力
lhjiang
AnySplat是一种先进的3D高斯散点渲染模型,能够从不同视角的图像高效生成高质量的3D场景。该模型具有快速推理能力和良好的泛化性能,为3D重建和渲染提供了创新的解决方案。
unsloth
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
Mungert
AceMath-RL-Nemotron-7B 是一个完全通过强化学习训练的数学推理模型,基于 Deepseek-R1-Distilled-Qwen-7B 进行训练,在数学推理任务中表现出色,同时在编码任务上也有一定的泛化能力。
ConicCat
这是一个实验性的小型思维模型,旨在8GiB消费级显卡上运行,具备通用推理能力。通过监督微调(SFT)和高质量推理轨迹训练,模型能够将推理能力泛化至多种任务。
wi-lab
LWM 1.1是专为无线信道特征提取设计的升级版预训练模型,支持多样化信道配置,提升特征提取质量与泛化能力。
bigscience
T0++是基于T5架构的自然语言处理模型,通过多任务提示训练实现零样本任务泛化能力,在多种NLP任务上超越GPT-3且体积更小。
facebook
感知编码器是通过视觉语言训练实现的最先进图像视频理解编码器,具有强大的泛化能力。
Ricky06662
Seg-Zero-7B是一个基于推理链引导的图像分割模型,采用解耦架构,包含推理模型和分割模型,通过GRPO强化学习训练实现零样本泛化能力。
3DAIGC
LHM是一个前馈模型,可在数秒内从单张图像重建可动画的3D人体。通过在大规模视频数据集上使用图像重建损失进行训练,我们的模型对多样化的现实场景展现出强大的泛化能力。
CYFRAGOVPL
PLLuM 是一个专注于波兰语及其他斯拉夫/波罗的海语言的大型语言模型家族,同时融入英语数据以实现更广泛的泛化能力。
PLLuM 是专门针对波兰语及其他斯拉夫/波罗的海语言优化的大型语言模型家族,兼具英语泛化能力,通过高质量数据训练和先进对齐技术开发而成。