最近、Meta社の幹部はソーシャルメディア上で、同社の新しいAIモデルLlama4に関する「不適切なトレーニング」の疑惑について釈明し、それらの主張は全く事実ではないと述べました。疑惑の内容は、Metaが新しく発表したLlama4MaverickとLlama4Scoutモデルにおいて、特定のベンチマークテストの「テストセット」でトレーニングを行い、モデルの性能を人為的に向上させたというもの。
Metaの生成AI担当副社長、アフマド・アル・ダヘル(Ahmad Al-Dahle)氏はX上でこれら主張は根拠がないと明確に反論しました。同氏は、テストセットはモデルの性能を評価するためのデータセットであり、このデータセットでトレーニングを行うと、モデルの性能が実際よりもはるかに優れているように見えるため、業界では不正競争とみなされると指摘しました。
画像出典:AI生成、画像ライセンスプロバイダーMidjourney
しかし、注目すべき点として、Llama4MaverickとLlama4Scoutは一部のタスクで期待通りのパフォーマンスを示さなかったこと、そしてMetaは、より高いスコアを得るためにベンチマークテストプラットフォームLM Arenaで未発表の実験版Maverickを使用したことを認めており、これが上記の噂に一部「証拠」を提供していることは間違いありません。研究者らは、一般公開されているMaverickとLM Arenaでホストされているバージョンとの間に、行動に顕著な違いがあることを発見しました。
アル・ダヘル氏はまた、異なるクラウドサービスプロバイダーが提供するLlama4モデルを使用する際に、ユーザーが品質のばらつきを経験したことも述べました。「モデルの準備が整い次第迅速にリリースしたため、公開されているすべてのバージョンを調整するには数日かかることを想定していました。引き続きバグ修正を行い、パートナーと連携していきます。」と説明しています。
Metaの今回の釈明は、同社のAI分野における倫理基準が依然として信頼できるものであることを示すと同時に、あらゆるAIモデルの性能はバージョンによって異なる可能性があることを改めて示唆しています。