大規模言語モデルの効率革命が進行中です。Metaスーパーアイラボは最近、大規模言語モデルの検索強化生成タスクにおける推論速度を30倍以上向上させる画期的な技術を公開しました。この革新は、「REFRAG: Rethinking RAG based Decoding」という論文に掲載され、AIモデルの運用方法に深い変化をもたらしました。

Metaスーパーアイラボは今年6月、カリフォルニア州メンローパークに設立されました。このラボの設立は、Meta最高経営責任者(CEO)のマーク・ザッカーバーグ氏が会社が新たにリリースしたLlama4モデルのパフォーマンスに不満を持ったことから始まりました。彼はチームに対して開発のスピードを早めることを要求し、技術の進歩を推進するために従業員に残業を求めるまでになりました。このような緊急性がラボの設立を生み出し、多くの優れた人材を引きつけました。

ラボの運用構造において、研究チームは4つのグループに分かれており、それぞれが大規模言語モデルの開発、基礎研究、製品技術応用、インフラストラクチャの確保に注力しています。REFRAGフレームワークの導入は、ラボが大規模言語モデルの性能を最適化する上で重要な一歩となりました。

REFRAGフレームワークのコアの革新点は、長く複雑な文脈を簡潔な要約に圧縮する軽量モデルを使用することで、デコーダーが処理する情報量を減らすことです。この方法により、処理速度が顕著に向上し、計算の複雑さも低下し、モデル全体の効率が向上します。研究チームはまた、継続的プレトレーニング戦略を採用しており、再構築タスクを通じてモデルを訓練し、情報を圧縮しつつも、関連情報をできるだけ保持しようと試みています。

全面的なテストの結果、REFRAGはさまざまなタスクで優れた性能を発揮し、特に時間遅延とデータスループットの改善が際立っています。実験データによると、圧縮比が16倍に達した場合でも、REFRAGは以前の最先端モデルCEPEよりも速度が速く、精度の損失もほとんどありません。この突破は、将来的なAI応用にとって新たな可能性を開きました。

検索強化生成技術は現在、大規模言語モデルが回答の質と正確性を向上させるための重要な手法です。外部知識ベースから関連情報を検索してモデル出力を強化するものです。しかし、従来のRAG手法では、大量の検索コンテンツを処理する際の計算負荷が主な課題でした。REFRAGはスマートな圧縮によってこの問題を解決し、モデルの性能を維持しながらも、実行効率を大幅に向上させました。