清华大学联合面壁智能在《自然・机器智能》发文,提出“能力密度”指标,强调模型性能应注重单位参数的有效智能而非规模。研究发现,能力密度约每3.5个月翻倍,同等任务所需参数可指数级减少。高密度需数据、算力、算法协同设计,而非简单压缩。面壁智能据此推出0.5B-2B系列模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
brucethemoose
这是一个基于Yi-34B-200K基础模型,通过DARE Ties方法合并多个同源模型的高密度合并模型,具有200K长上下文处理能力。