このたび、オープンソースの機械学習フレームワークであるPyTorchは、新バージョン2.8の正式リリースを発表しました。このバージョンのリリースは注目を集めています。特に、大規模言語モデル(LLM)の量化された推論性能の向上が焦点となっています。Intel CPUでのパフォーマンスも注目されています。今回のアップデートは、オフラインモードでの推論効率を大幅に向上させ、さらに実験的な形でIntel GPUの分散バックエンドをサポートしています。

PyTorch 2.8では、開発者たちはアルゴリズムの最適化と新しい技術の導入により、量化されたLLMの推論速度を大幅に向上させました。具体的には、A16W8、DA8W8、A16W4などの複数の量化モードをサポートしています。テスト結果によると、Intelの第6世代Xeonプラットフォーム上でM=8、Kと32コアを条件としてLlama-3.1-8Bモデルを動作させる場合、エンドツーエンドの遅延が20%以上減少し、一部の人気のあるLLMサービスフレームワークと同等のパフォーマンスを達成しています。

image.png

また、今回のアップデートのもう一つの特徴は、IntelのディスクリートGPUに対してXCCLの分散バックエンドの実験的サポートを導入したことです。この機能により、さまざまなトレーニングモードに対してより柔軟な選択肢が提供され、開発者は広範囲なハードウェア環境でモデルの潜在能力を最大限に引き出すことができます。

上記の主要な機能強化に加えて、PyTorch 2.8にはいくつか重要な改善も含まれています。例えば、SYCLのサポートにより、PyTorchのC++拡張APIの機能がより豊富になり、XPUデバイスではA16W4モードのサポートも追加されました。また、開発チームはlibtorch ABIに安定したインターフェースを提供し、サードパーティのC++/CUDA拡張における互換性の問題を減らしています。

ROCmへのサポートも強化され、gfx950アーキテクチャのサポートが追加され、TorchInductorやAOTInductorを組み合わせて、複数のカーネルの自動チューニングテンプレートを提供しています。また、条件判断やループなどの制御フロー操作の導入により、モデルのコンパイルおよびエクスポートがより効率的になりました。

PyTorch 2.8のリリースは、機械学習分野に多くの可能性をもたらし、開発者にとってより強力なツールを提供し、大規模言語モデルの応用と発展を推進しています。

ダウンロード先:https://github.com/pytorch/pytorch/releases/tag/v2.8.0