Andrej Karpathy氏は、大規模モデルのメモリ制限問題を解決する最適化手法である投機的実行 (speculative execution) を紹介しました。 「Speculative decoding」技術を用いることで、大規模モデルはまず小型モデルで予測を行い、その後大規模モデルで修正することで、メモリへのアクセス回数を削減します。この技術の有効性は、予測の大部分が比較的単純であるため、小型モデルでも正確な予測が可能である点にあります。この巧妙な手法は、大規模モデルの推論プロセスを高速化し、時間性能を向上させます。