人工知能企業のDeepSeekの研究チームは月曜日に、独自の「スパースアテンション」メカニズムにより、長文の処理コストを大幅に削減することを目的とした新しい実験モデル「V3.2-exp」を公開したと発表しました。この画期的な進展は、Hugging FaceおよびGitHubで同時にリリースされ、詳細な学術論文も添えられています。
このモデルの中心はその特異な「DeepSeekスパースアテンションメカニズム」です。この複雑なシステムは2つの部分から構成されています。まず、「ライトニングインデクサ」と呼ばれるモジュールが、文脈ウィンドウ内の特定の抜粋を優先順位付けます。次に、「フィングレインタグ選択システム」という独立したモジュールが、これらの優先された抜粋から重要なタグを選択し、限られたアテンションウィンドウにロードします。これらのメカニズムの組み合わせにより、スパースアテンションモデルは低いサーバー負荷で効率的に長文を処理することが可能になります。
初期のテストでは、新しいモデルは顕著な利点を示しています。DeepSeekによると、長文の処理において、単純なAPI呼び出しのコストは最大半分まで削減されます。ただし、これらの結果はまだより多くの第三者のテストによって検証される必要があります。しかし、このモデルはオープンウェイトであり、Hugging Faceで無料で提供されているため、業界での実際の性能はすぐに確認されるでしょう。
DeepSeekのこの突破は、最近のAI推論コストを解決する一連の革新の一つです。推論コストとは、トレーニング済みのAIモデルを実行するサーバー費用を指し、トレーニング費用とは異なります。R1モデルのようにトレーニングコストを下げるのではなく、今回の新モデルは基本的なTransformerアーキテクチャの実行効率を向上させることに注力しており、AIアプリケーションの普及にとってより経済的なソリューションを提供しています。