清华大学联合面壁智能在《自然・机器智能》发文,提出“能力密度”指标,强调模型性能应注重单位参数的有效智能而非规模。研究发现,能力密度约每3.5个月翻倍,同等任务所需参数可指数级减少。高密度需数据、算力、算法协同设计,而非简单压缩。面壁智能据此推出0.5B-2B系列模型。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
brucethemoose
这是一个基于Yi-34B-200K基础模型,通过DARE Ties方法合并多个同源模型的高密度合并模型,具有200K长上下文处理能力。