字節跳動推出 QuaDMix:大型語言模型預訓練數據質量與多樣性的統一框架
近日,字節跳動宣佈推出其全新的數據選擇框架 QuaDMix,旨在提升大型語言模型(LLM)預訓練的效率和泛化能力。衆所周知,模型的訓練效果受基礎數據集的質量和多樣性影響很大。然而,傳統的數據篩選方法往往將質量和多樣性視爲兩個獨立的目標,先進行質量過濾,再進行領域平衡。這種逐步優化的方式忽略了質量與多樣性之間的複雜相互關係。優質數據集往往存在領域偏差,而多樣化的數據集可能會降低質量。因此,在固定的訓練預算下,如何同時優化這兩個維度以最大化模型性能