データセンター間のイノベーション:Moonshot AI と清華大学が PrfaaS アーキテクチャを提案
Moonshot AI と清華大学は、大規模言語モデルの推論における計算リソースのボトルネックを解決するため、プリフィルイング・アズ・サービス(PrfaaS)という新しいアーキテクチャを提案しました。このアーキテクチャでは、計算が高密度なプリフィルイングステージ(キー値キャッシュの生成)とデコードステージを分離し、リソース利用率を最適化し、従来のサービスの制限を突破することを目指しています。