Llama 4啓動訓練 Meta科學家揭祕Llama 3.1訓練背後的故事
Meta的科學家Thomas Scialom揭示了Llama3.1的開發祕訣,其405B的參數規模是爲了對抗GPT-4。通過增加訓練的token數而非架構,Llama3.1實現了模型規模與訓練數據總量的優化平衡,達到了知識深度與廣度的飛躍。數據選擇上,Scialom更傾向於合成數據而非公開互聯網文本。Llama3.1的評估與改進採用獎勵模型和多樣化基準,同時引入了Toolformer等agent工具的開發,標誌着AI領域的創新探索。Llama3.1的開源是Meta對未來AI的一次大膽嘗試。Llama4的啓動將重點放在agent技術上,預示着Meta在AI領域的持續領導地位和未來AI的重新定義。