最近、グーグルはLMEvalというオープンソースフレームワークを発表しました。これは大規模言語モデルやマルチモーダルモデルの評価を簡素化し標準化するためのものです。このツールは研究者や開発者に統一された評価プロセスを提供し、異なる企業のAIモデル(GPT-4o、Claude3.7Sonnet、Gemini2.0Flash、Llama-3.1-405Bなど)を簡単に比較できるようにします。
従来、新しいAIモデルの比較は複雑で、各プロバイダーが独自のAPI、データ形式、ベンチマーク設定を使用していたため、効率が低く比較が困難でした。そのため、LMEvalが登場しました。このフレームワークは標準化された評価プロセスを採用しており、一度基準を設定すれば、サポートされているあらゆるモデルに容易に適用できます。追加作業はほとんど必要ありません。
LMEvalはテキストだけでなく、画像やコードの評価も可能です。ユーザーは新しい入力形式を簡単に追加できます。システムはさまざまな評価タイプ(二択問題、多択問題、自由記述生成など)に対応しており、「逃れ戦略」の検出にも対応しています。これはモデルが問題やリスクのあるコンテンツを生成しないよう曖昧な答えを返す行為です。
このシステムはLiteLLMフレームワーク上で動作し、グーグル、OpenAI、Anthropic、Ollama、Hugging Faceなどの異なるプロバイダーのAPI差異をスムーズに処理します。これにより、同じテストを複数のプラットフォームで実行することが可能であり、コードを再編集する必要はありません。特に目立つ特長として、増分評価が挙げられます。ユーザーは全テストを毎回実行する必要はなく、新たに追加したテストのみを行うことができます。これにより時間と計算コストが大幅に削減されます。さらに、LMEvalはマルチスレッドエンジンを使用して計算速度を向上させ、複数の計算を並列に行うことが可能です。
グーグルはまた、LMEvalboardというビジュアルツールも提供しています。ユーザーはこのダッシュボードを利用してテスト結果を分析することができます。レーダーチャートを生成することで、モデルの異なるカテゴリにおけるパフォーマンスを確認でき、個別のモデルについても詳しく検討できます。このツールはユーザーにモデル間の比較を支援し、特定の問題での並列表示などを可能にします。これにより、ユーザーは異なるモデルの違いを理解しやすくなります。
LMEvalのソースコードとサンプルノートブックはGitHubで公開されており、多くの開発者が利用し研究することが可能です。
プロジェクト:https://github.com/google/lmeval
要点:
🌟 LMEvalはグーグルが公開したオープンソースフレームワークで、異なる企業の大型AIモデルを統一的に評価するためのものです。
🖼️ テキスト、画像、コードのマルチモーダル評価に対応し、新しい入力形式を簡単に追加できます。
📊 LMEvalboardというビジュアルツールを提供し、モデルのパフォーマンスを深く分析・比較できます。