DeepSeekがエングラムモジュールを発表:疎な大規模モデルに条件付き記憶軸を組み込む。効率が大幅に向上
DeepSeekチームがエングラムモジュールを発表し、疎な大規模言語モデルにおいて「条件付き記憶軸」を導入しました。これは、従来のTransformerが繰り返し知識を処理する際に計算リソースを浪費してしまう問題を解決することを目的としています。このモジュールは、ミックス・オブ・エキスパートモデルの補完として機能し、N-gram埋め込み技術をモデルに統合して、繰り返しパターンの処理効率を向上させます。