通義千問と魔搭コミュニティによるオープンソーステストセットP-MMEval:モデルの多言語能力を評価
アリババの達摩院と魔搭コミュニティModelScopeは最近、大規模言語モデル(LLM)の多言語能力を包括的に評価し、クロスリンガル転移能力の比較分析を行うことを目的とした、新しい多言語ベンチマークテストセットP-MMEvalをオープンソースとして公開しました。このテストセットは、基礎能力と専門能力の高効率データセットを網羅しており、選択されたすべてのデータセットで多言語の網羅性を確保し、複数の言語にまたがる並列サンプルを提供します。最大で8つの異なる語族の10言語、英語、中国語、アラビア語などをサポートします。