英偉達開源新突破:新模型訓練算力節省1.8倍!
英偉達開源了兩款新型大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B,採用結構化剪枝和知識蒸餾高效訓練方法,顯著降低訓練需求,減少數據和算力消耗。與傳統方法相比,新模型的訓練token數據減少40倍,算力成本節省1.8倍。通過優化Llama-3.18B,結構化剪枝簡化模型結構,知識蒸餾提升性能,Minitron-4B和Minitron-8B在MMLU上的評分提升16%,性能媲美Mistral7B等知名模型。這一開源舉措展示了英偉達在AI領域的領導地位,併爲AI社區提供了寶貴資源,推動AI技術向更高效、更智能方向發展。