Llama-3 8B Instruct 262kは、Gradient AIチームが開発したテキスト生成モデルです。LLama-3 8Bのコンテキスト長を160K以上に拡張し、最先端(SOTA)の大規模言語モデルが長文処理を学習する潜在能力を示しています。RoPE thetaパラメータの適切な調整、NTK-aware補間とデータ駆動型最適化技術の組み合わせにより、長文での効率的な学習を実現しています。さらに、EasyContext Blockwise RingAttentionライブラリを基盤として構築されており、高性能ハードウェア上での拡張性と効率的なトレーニングをサポートします。