Unsloth AI推出开源无代码可视化工具Unsloth Studio,旨在简化大语言模型微调流程,降低开发门槛。该工具通过定制化反向传播内核实现训练速度翻倍和显存节省70%,无需复杂环境配置和高昂硬件成本。
国产大模型GLM-5在2026年初实现重大突破,开源后在全球权威榜单Artificial Analysis中位列第四,评分与Claude Opus4.5相当。其核心创新包括:参数规模扩展至744B,预训练数据达28.5T;集成DeepSeek稀疏注意力机制,在保持长文本理解能力的同时降低部署成本;在编程与工程领域表现突出。
蚂蚁灵波团队开源交互式世界模型LingBot-World,为具身智能和自动驾驶等领域提供高保真、逻辑一致的虚拟训练环境。该模型通过模拟物理规律,帮助智能体在数字演练场中进行低成本试错,并将习得的行为因果关系迁移至现实世界,有效解决了真机数据稀缺、训练成本高昂的痛点。
Allen AI推出开源编程智能体SERA系列,旨在降低AI编程应用门槛,最低训练成本仅400美元。其最强模型SERA-32B在SWE-Bench测试中解决54.2%问题,性能超越同类开源模型,部分指标接近行业领先水平。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
prithivMLmods
VibeThinker-1.5B是微博AI推出的15亿参数密集语言模型,基于Qwen2.5-Math-1.5B微调,专门针对数学和算法编码问题设计。采用'频谱到信号原理'框架训练,在多个数学竞赛测试中超越规模更大的模型,训练成本约7800美元,支持最长约40k词元的输出。
lmms-lab
LLaVA-OneVision-1.5 是一系列完全开源的大型多模态模型,通过在原生分辨率图像上进行训练,以较低的成本实现了先进的性能。该模型在多个多模态基准测试中展现出卓越性能,超越了Qwen2.5-VL等竞争对手。
FractalAIResearch
Fathom-R1-14B是一个基于R1-distilled-14B模型的项目,以499美元的低训练成本在16K上下文下实现o4-mini水平的数学推理能力。
qihoo360
Light-R1-32B是基于Qwen2.5-32B-Instruct训练的数学竞赛专用模型,通过课程式SFT与DPO技术实现超越DeepSeek-R1-Distill的性能,训练成本仅1000美元。
apple
TiC-CLIP是一个持续训练的视觉语言模型,专注于解决基础模型与最新数据同步的高成本问题。
TiC-CLIP是一个持续训练的视觉语言模型,通过时间连续数据训练保持模型与最新数据的同步性,避免频繁重新训练的高成本。
jetmoe
JetMoE-8B是一款高效开源大语言模型,以不足10万美元的训练成本达到LLaMA2-7B性能水平,专为低资源环境设计。
PixArt-alpha
Pixart-α是基于Transformer架构的高效文本生成图像模型,能以极低训练成本生成1024像素高质量图像
PKU-Alignment
Beaver成本模型是基于PKU-SafeRLHF数据集训练而成的偏好模型,用于在安全RLHF算法中评估模型输出的安全性。
microsoft
XDoc 是一个统一预训练模型,能够通过单一模型处理不同格式的文档。仅需36.7%的参数量,XDoc在下游任务中即可实现相当或更优的性能表现,在实际部署中具有显著成本效益。
一个全面的MCP服务器,提供机器学习模型训练、微调和实验管理功能,支持多后端训练、云GPU部署和成本估算。