OpenDiLoCo:分佈式AI訓練的開源解決方案,低通信成本,全球覆蓋!
LMDs作爲 AI 應用的核心,其高效訓練成爲推動技術發展關鍵。然而,大規模模型訓練需龐大算力,限制了其應用範圍。爲解決計算資源限制問題,OpenDiLoCo作爲全球分佈式訓練創新框架應運而生,基於DiLoCo(分佈式低通信)訓練方法。其採用去中心化結構,優化通信需求,顯著提升訓練效率與全球可擴展性。OpenDiLoCo具有動態資源分配、容錯能力及點對點通信等特性,實現在不犧牲多數計算利用率(90%-95%)的情況下,實現模型高效跨洲、跨國培訓。該框架通過引領者/追隨者架構和容錯培訓方法,增強分佈式訓練魯棒性,同時在十億參數模型中證明了其算法優勢和高效計算策略。通過消融實驗,Prime Intellect 證明了 DiLoCo 在降低通信需求至初始的500倍下仍能保持基線性能。同時,成功在C4數據集和包含1B參數模型部署中展示了其方法的全球訓練能力,其結果超過了原先DeepMind研究針對最多4億參數模型規模的實驗規模上限到1億參數級。將實驗拓展到北美、歐洲的多國家進行測試,證明了OpenDiLoCo開放源碼庫的潛在巨大影響力。Prime Intellect對於OpenDiLoCo框架的應用,是AI分佈式與去中心化訓練領域的一次領先嚐試,未來將探索更大規模模型與更高效率優化。