阿里巴巴達摩院聯合魔搭社區ModelScope近期宣佈開源一項新的多語言基準測試集P-MMEval,旨在全面評估大型語言模型(LLM)的多語言能力,並進行跨語言遷移能力的比較分析。這一測試集覆蓋了基礎和專項能力的高效數據集,確保了所有挑選的數據集中多語言覆蓋的一致性,並提供了跨多種語言的並行樣本,最高支持來自8個不同語族的10種語言,包括英語、中文、阿拉伯語、西班牙語、日語、韓語、泰語、法語、葡萄牙語和越南語。
多語言多任務基準測試,用於評估大型語言模型(LLMs)