生成系大規模言語モデル(LLM)は、複雑な自然言語処理、創作、質疑応答、コード生成など、様々なタスクにおける優れた性能で知られています。LLMは、消費レベルのGPUを搭載した家庭用PCなど、使い易いローカルシステム上で動作します。
PowerInferは、この理解を活用したGPU-CPUハイブリッド推論エンジンです。冷えた活性化ニューロンをCPUにプリロードして計算を行い、活発な活性化ニューロンをGPUにプリロードして即座にアクセスできるようにします。
評価の結果、PowerInferは現在のllama.cppシステムと比べて11.69倍高速でありながら、モデルの忠実度を維持していることが示されました。
結論として、PowerInferはLLMの推論速度を大幅に向上させ、GPU機能が限られたデスクトップPC上での実行に適していることを示しています。