AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
數據集市
TW

AI資訊

查看更多

字節跳動發佈高效預訓練長度縮放技術,突破長序列訓練瓶頸

字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架,顯著提升大語言模型(LLM)在長序列預訓練中的效率與性能。據AIbase瞭解,該技術在保持推理效率的同時,支持高達2048K(2M)的上下文長度訓練,解決了傳統框架在數據異構性與計算平衡上的瓶頸。相關研究已在arXiv公開,引發了AI研究社區的廣泛關注。核心創新:PHD-Transformer優化長序列訓練字節跳動的PHD-Transformer通過獨特的鍵值緩存(KV Cache)管理策略與架構優

35.2k 1 天前
字節跳動發佈高效預訓練長度縮放技術,突破長序列訓練瓶頸
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖