アップル研究:大規模言語モデルの推論能力に深刻な欠陥
最近、アップル社は、大規模言語モデル(LLM)の推論能力に関する研究を行い、これらのモデルの数学分野におけるパフォーマンスに対する懸念を引き起こしました。GSM8Kベンチマークは、モデルの小・中学校レベルの算数問題における推論能力を評価するために広く使用されていることは周知の事実です。LLMのGSM8Kにおけるパフォーマンスは近年向上していますが、研究者たちはその結果の信頼性に疑問を抱いています。そこで、彼らは、現在最先端のオープンソースとクローズドソースモデルのパフォーマンスを調査するための大規模な研究を行いました。モデルのより良い評価のために