英伟达开源新突破:新模型训练算力节省1.8倍!
英伟达开源了两款新型大模型Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B,采用结构化剪枝和知识蒸馏高效训练方法,显著降低训练需求,减少数据和算力消耗。与传统方法相比,新模型的训练token数据减少40倍,算力成本节省1.8倍。通过优化Llama-3.18B,结构化剪枝简化模型结构,知识蒸馏提升性能,Minitron-4B和Minitron-8B在MMLU上的评分提升16%,性能媲美Mistral7B等知名模型。这一开源举措展示了英伟达在AI领域的领导地位,并为AI社区提供了宝贵资源,推动AI技术向更高效、更智能方向发展。