大语言模型推理效率迎来突破。清华大学与Moonshot AI联合提出“预填充即服务”新架构,通过将推理过程拆分为预填充和解码两个阶段,并优化算力资源分配,有效解决硬件限制问题,显著提升模型服务性能。
Moonshot AI与清华大学提出预填充即服务(PrfaaS)新架构,旨在解决大型语言模型推理中计算资源瓶颈。该架构将高计算密集的预填充阶段(生成键值缓存)与解码阶段分离,以优化资源利用,突破传统服务限制。
Anthropic
$7
Input tokens/M
$35
Output tokens/M
200
Context Length
$1.75
$8.75
Google
-
$21
$105
Chatglm
$100
128