OpenDiLoCo:分布式AI训练的开源解决方案,低通信成本,全球覆盖!
LMDs作为 AI 应用的核心,其高效训练成为推动技术发展关键。然而,大规模模型训练需庞大算力,限制了其应用范围。为解决计算资源限制问题,OpenDiLoCo作为全球分布式训练创新框架应运而生,基于DiLoCo(分布式低通信)训练方法。其采用去中心化结构,优化通信需求,显著提升训练效率与全球可扩展性。OpenDiLoCo具有动态资源分配、容错能力及点对点通信等特性,实现在不牺牲多数计算利用率(90%-95%)的情况下,实现模型高效跨洲、跨国培训。该框架通过引领者/追随者架构和容错培训方法,增强分布式训练鲁棒性,同时在十亿参数模型中证明了其算法优势和高效计算策略。通过消融实验,Prime Intellect 证明了 DiLoCo 在降低通信需求至初始的500倍下仍能保持基线性能。同时,成功在C4数据集和包含1B参数模型部署中展示了其方法的全球训练能力,其结果超过了原先DeepMind研究针对最多4亿参数模型规模的实验规模上限到1亿参数级。将实验拓展到北美、欧洲的多国家进行测试,证明了OpenDiLoCo开放源码库的潜在巨大影响力。Prime Intellect对于OpenDiLoCo框架的应用,是AI分布式与去中心化训练领域的一次领先尝试,未来将探索更大规模模型与更高效率优化。