昨日、Meta社は最新の大規模言語モデルLlama 3.1 405Bのオープンソース化を発表しました。この重大発表は、1年間の綿密な準備、プロジェクトの計画から最終的な審査に至るまで、Llama 3シリーズのモデルがついに一般公開されたことを意味します。

Llama 3.1 405Bは、1280億個のパラメータを持つ多言語ツール使用モデルです。このモデルは、8Kコンテキスト長の事前学習の後、さらに128Kコンテキスト長で継続学習されました。Meta社によると、このモデルは、多くのタスクにおいて業界をリードするGPT-4に匹敵する性能を示します。

QQ_1721780387467.png

以前のLlamaモデルと比較して、Meta社はいくつかの点で改良を行いました。

  1. 事前学習データの前処理と策定プロセスの改善
  2. 学習後データの品質保証と選別方法の向上

405Bモデルの事前学習は、15.6兆個のトークンと3.8×10^25回の浮動小数点演算を伴う、非常に困難な課題でした。そのため、Meta社はトレーニングアーキテクチャ全体を最適化し、16,000個以上のH100 GPUを使用しました。

405Bモデルの大規模な本番推論をサポートするために、Meta社はこれを16ビット(BF16)から8ビット(FP8)に量子化し、計算需要を大幅に削減しました。これにより、単一のサーバーノードでもこのモデルを実行できるようになりました。

さらに、Meta社は405Bモデルを使用して、70Bおよび8Bモデルの学習後の品質を向上させました。学習後段階では、チームは多段階のアラインメントプロセスを通じて、教師あり微調整(SFT)、拒否サンプリング、直接選好最適化などによりチャットモデルを改良しました。注目すべきは、SFTサンプルの大部分は合成データを使用して生成されたことです。

Llama 3は、画像、ビデオ、音声機能も統合しており、組み合わせ手法によりモデルは画像とビデオを認識し、音声インタラクションをサポートします。ただし、これらの機能はまだ開発中で、正式にリリースされていません。

Meta社はまた、開発者がLlamaモデルの出力を利用して他のモデルを改良することを許可するライセンス契約を更新しました。

Meta社の研究者たちは次のように述べています。「AIの最前線で業界トップの人材と協力し、研究成果を公開して透明性を保つことは、非常に刺激的なことです。私たちは、オープンソースモデルによるイノベーションと、将来のLlamaシリーズモデルの可能性に期待しています!」

このオープンソース化は、AI分野に新たな機会と課題をもたらし、大規模言語モデル技術のさらなる発展を促進するでしょう。