5.7萬億個優質tokens的誕生:大語言模型訓練的 “神祕寶藏” TxT360
在 AI 的世界裏,數據就像是金礦,越豐富越閃亮。最近,LLM360推出了一個令人矚目的數據集 TxT360,專爲大語言模型訓練量身定做。這個龐然大物不僅收錄了來自各行各業的高質量文本數據,更是經歷了一場全球範圍的去重大作戰,最終匯聚成5.7萬億個優質 tokens,真可謂是 “數據界的百寶箱”!TxT360的魅力在於其超大的規模和超高的質量,完勝現有的 FineWeb 和 RedPajama 等數據集。這份數據集從99個 Common Crawl 快照中抓取了互聯網的精華,同時還特別挑選了14個高質量的數據源,比如法律文檔和