アップル研究チームによるLazyLLM:LLMの長文推論効率向上
アップルとMeta AIが共同で開発した新技術LazyLLMは、大規模言語モデルにおける長文推論の効率向上を目指しています。最新のトランスフォーマーアーキテクチャは、長いプロンプトを処理する際に速度が遅いという問題を抱えており、特に計算複雑度が線形に増加します。これに対処するため、LazyLLMは重要なトークンを動的に選択することで計算量を削減しつつ、モデルの精度を維持します。その効率的なメカニズムには、以前の層の注意スコアを評価し、計算コストを動的に削減すること、剪定されたトークンを動的に復元すること、そしてAux Cacheメカニズムによるキャッシュなどが含まれます。