メタAIラボは今日、Llama3.1を推論の「X線機」に変えて、新しいモデルであるCoT-VerifierがHugging Faceに正式リリースされました。このモデルは、チェーン・オブ・シンス(CoT)の各ステップの「回路の軌跡」を正確に解析し、誤りがブラックボックスに隠れることがないようにします。
従来の検証は出力が正しいかどうかだけを見ていますが、メタは視点を変えてみました。まずモデルに一度フォワード実行を行い、その後各ステップの帰因グラフ(attribution graph)を取り出します。チームは、正しく推論されているものと間違っているもののグラフ構造に大きな違いがあることを発見しました。それは、形状が完全に異なる回路基板のように見えます。これらの「グラフ特徴」を使って軽量な分類器を訓練することで、誤りのあるステップの予測精度がSOTA(最良)にまで上がりました。また、数学、論理、常識といった異なるタスクごとに独自の「障害図譜」があり、推論の失敗がランダムノイズではなく、定量化され、分類可能な計算パターンであることを示しています。

さらに重要なのは、帰因グラフは「診断」だけでなく、「手術」にも使えるということです。メタの実験では、高信頼度のノードに対して対象的な消去や重みのシフトを行った結果、Llama3.1のMATHデータセットでの精度が4.2ポイント向上し、メインのネットワークを再トレーニングすることなく成功しました。言い換えれば、CoT-Verifierは、推論の誤り修正を「事後の振り返り」から「手術中のナビゲーション」に変えました。




