バイトダンスDoubao UltraMemアーキテクチャ、大規模モデル推論コストを83%削減
バイトダンスDoubaoの大規模モデルチームは本日、新しいスパースモデルアーキテクチャUltraMemを開発したと発表しました。このアーキテクチャは、MoE(Mixture of Experts)モデル推論における高額なメモリアクセス問題を効果的に解決し、推論速度をMoEと比較して2~6倍向上させ、推論コストを最大83%削減します。この画期的な進歩は、大規模モデルの効率的な推論のための新しい道を切り開きます。UltraMemアーキテクチャは、モデルの性能を維持しながら、MoEアーキテクチャ推論におけるメモリアクセスのボトルネックを解消することに成功しました。実験結果によると、パラメータと活性化条件が同じ場合