西湖机器人公司发布人形机器人泰坦o1,内置全球首个动作泛化大模型“GAE身外化身系统”。该机器人具备毫秒级模仿能力,可实时复刻人类动作,实现一人操控多台“赛博分身”,展示了机器人领域的新突破。
小米开源47亿参数机器人模型Xiaomi-Robotics-0,采用MoT混合架构,通过“大脑”与“小脑”协同工作,在消费级显卡上实现实时推理,解决现有VLA模型因推理延迟导致动作迟缓的问题,提升机器人控制效率与泛化能力。
灵波科技开源具身大模型LingBot-VLA,在真实与仿真场景中均表现优异,尤其在GM-100基准测试中展现强大泛化能力,并开放完整训练代码库以降低研发门槛。
蚂蚁集团旗下灵波科技开源具身大模型LingBot-VLA,作为机器人操作的“智能基座”,具备跨本体和跨任务泛化能力,显著降低后训练成本,推动“一脑多机”工程化落地。在GM-100评测基准中,该模型在三个真实机器人平台上表现优异。
低成本强化视觉语言模型的泛化能力,仅需不到3美元。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
unsloth
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
3DAIGC
LHM是一个前馈模型,可在数秒内从单张图像重建可动画的3D人体。通过在大规模视频数据集上使用图像重建损失进行训练,我们的模型对多样化的现实场景展现出强大的泛化能力。
CYFRAGOVPL
PLLuM 是一个专注于波兰语及其他斯拉夫/波罗的海语言的大型语言模型家族,同时融入英语数据以实现更广泛的泛化能力。
PLLuM 是专门针对波兰语及其他斯拉夫/波罗的海语言优化的大型语言模型家族,兼具英语泛化能力,通过高质量数据训练和先进对齐技术开发而成。
nvidia
BigVGAN 是由 NVIDIA 开发并开源的一款大规模训练的通用神经声码器。它能够将梅尔频谱图等声学特征高效、高质量地转换为逼真的音频波形,在语音合成、音频生成等领域具有重要价值。该模型以其强大的泛化能力和高保真度而著称。