字節跳動發佈高效預訓練長度縮放技術,突破長序列訓練瓶頸
字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,顯著提升大語言模型(LLM)在長序列預訓練中的效率與性能。據AIbase瞭解,該技術在保持推理效率的同時,支持高達2048K(2M)的上下文長度訓練,解決了傳統框架在數據異構性與計算平衡上的瓶頸。相關研究已在arXiv公開,引發了AI研究社區的廣泛關注。核心創新:PHD-Transformer優化長序列訓練字節跳動的PHD-Transformer通過獨特的鍵值緩存(KV Cache)管理策略與架構優