北大とアリババ、Omni-MATHを発表:AI数学能力の究極の挑戦
OpenAIのGPT-4が従来の数学評価で何度も好成績を収める中、北京大学とアリババの研究チームは、大規模言語モデルの国際数学オリンピックレベルの推論能力を評価することを目的とした、新しい評価基準Omni-MATHを共同で発表しました。この取り組みは、AIの数学能力の評価に新たな基準を提供するだけでなく、AIが高度な数学分野で潜在能力を探求するための新たな道を切り開きます。Omni-MATHの独特な設計により、Omni-MATH評価ライブラリには、4428問のコンテストレベルの数学問題が含まれています。