NVIDIA与斯坦福大学联合发布通用游戏AI智能体NitroGen,在1000多款游戏、4万小时数据上训练而成,具备强大跨游戏泛化能力。研究团队将开源数据集和模型权重,推动全球AI与游戏研究发展。
银河通用团队联合多所高校发布全球首个跨本体全域环视导航基础大模型NavFoM,实现无需预先建图和环境适配的零样本全域导航能力,突破传统机器人“换个地方就迷路”的技术瓶颈。该模型具备全场景泛化能力,适用于嘈杂商场、复杂结构等环境。
微软研究院推出深度学习交换-关联泛函Skala,显著提升Kohn-Sham密度泛函理论计算效率。该模型通过模拟非局部效应,在保持与meta-GGA相当速度的同时,达到混合泛函精度水平。测试显示:W4-17分子体系原子化能量评估平均绝对误差仅1.06kcal/mol,单参考子集误差更降至0.85kcal/mol,GMTKN55基准测试表现优异。
Google DeepMind的Veo3视频生成模型在测试中展现出超预期的多任务处理潜力,被视为视觉AI里程碑。其核心突破在于零样本学习能力,无需专门训练即可应对多种复杂视觉任务,体现了强大的泛化性能。
低成本强化视觉语言模型的泛化能力,仅需不到3美元。
开源机器人模拟平台,用于生成无限机器人数据和泛化AI。
基于轨迹草图的机器人任务泛化
Openai
$7.7
Input tokens/M
$30.8
Output tokens/M
200
Context Length
Anthropic
$105
$525
Moonshot
$4
$16
256
Baidu
-
32
Xai
$1.4
$10.5
Alibaba
Tencent
$8.75
$70
400
$1.75
$14
$1.8
$5.4
16
$21
$0.5
128
$1
$3
4
Huawei
$2
$56
1k
Google
$0.35
$0.7
131
$1.6
GilbertAkham
这是一个基于DeepSeek-R1-Distill-Qwen-1.5B的多任务微调模型,通过LoRA适配器在多个数据集上进行训练,具备强大的多任务泛化和推理能力,能够处理广泛的自然语言和基于推理的任务。
lerobot
π₀.₅是由Physical Intelligence开发的视觉-语言-动作模型,具备开放世界泛化能力,能够在训练时从未见过的全新环境和场景中执行机器人任务。
mldi-lab
Kairos-10M是一款专为跨领域零样本预测设计的时间序列基础模型,拥有约1000万参数。它能处理不同信息密度的异构时间序列数据,无需微调即可在不同领域实现强大的泛化能力。
Kairos-50M是一个拥有5000万参数的时间序列基础模型,专门用于跨不同领域的零样本预测。它采用自适应分词和位置编码技术,能够处理具有不同信息密度的异构时间序列数据,无需微调即可在不同领域实现强大的泛化能力。
XiaomiMiMo
MiMo Audio是一款基于大规模预训练的音频语言模型,在语音智能和音频理解基准测试中取得了开源模型的SOTA性能。该模型展现出强大的少样本学习能力,能够泛化到训练数据中未包含的任务,支持语音转换、风格迁移和语音编辑等多种音频任务。
samuelsimko
这是一个基于Transformer架构的预训练模型,具体功能和特性需要根据实际模型信息补充。模型支持多种下游任务,具备良好的泛化能力。
yslan
STream3R是一种基于因果Transformer的可扩展序列3D重建模型,将点云图预测重新定义为仅解码器的Transformer问题。它引入流式处理框架,利用因果注意力高效处理图像序列,能够很好地泛化到各种具有挑战性的场景,包括传统方法经常失效的动态场景。
MonkeyDAnh
这是一个基于RoBERTa-base微调的AI文本检测模型,专门用于区分AI生成文本和人类撰写文本。模型在多个数据集上进行了顺序微调,具备高精度的检测能力和良好的泛化性能。
RedHatAI
专为Qwen/Qwen3-8B设计的推测解码模型,采用EAGLE-3算法提升文本生成效率和质量,通过多个优质数据集训练获得优秀的泛化能力
silx-ai
TARS-1B是一个拥有10亿参数的非Transformer液态神经网络语言模型,完全从头构建,采用创新的液态神经网络架构,专为连续时间推理和高效泛化而设计。该模型仅使用3亿个令牌进行预训练,在多个基准测试中展现出令人印象深刻的性能。
lhjiang
AnySplat是一种先进的3D高斯散点渲染模型,能够从不同视角的图像高效生成高质量的3D场景。该模型具有快速推理能力和良好的泛化性能,为3D重建和渲染提供了创新的解决方案。
unsloth
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
Whisper是OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,在超过500万小时的标记数据上训练,具有强大的零样本泛化能力。Turbo版本是原版的修剪微调版本,解码层从32层减少到4层,速度大幅提升但质量略有下降。
Mungert
AceMath-RL-Nemotron-7B 是一个完全通过强化学习训练的数学推理模型,基于 Deepseek-R1-Distilled-Qwen-7B 进行训练,在数学推理任务中表现出色,同时在编码任务上也有一定的泛化能力。
ConicCat
这是一个实验性的小型思维模型,旨在8GiB消费级显卡上运行,具备通用推理能力。通过监督微调(SFT)和高质量推理轨迹训练,模型能够将推理能力泛化至多种任务。
wi-lab
LWM 1.1是专为无线信道特征提取设计的升级版预训练模型,支持多样化信道配置,提升特征提取质量与泛化能力。
bigscience
T0++是基于T5架构的自然语言处理模型,通过多任务提示训练实现零样本任务泛化能力,在多种NLP任务上超越GPT-3且体积更小。
VisualCloze
VisualCloze是一个基于上下文学习的通用图像生成框架,支持多种领域内任务,并能通过上下文学习泛化至未见任务。
VisualCloze是一个基于视觉上下文学习的通用图像生成框架,支持多种领域内任务和未见任务的泛化,通过单步生成同时输出目标图像与中间结果。
facebook
感知编码器是通过视觉语言训练实现的最先进图像视频理解编码器,具有强大的泛化能力。