HumanEval - コーディング能力を評価するためのベンチマーク。MBPP - Pythonプログラミング能力を評価するためのベンチマーク。MMLU - 多言語理解能力を評価するためのベンチマーク。