蘋果研究團隊發佈新基準GSM-Symbolic:揭示大語言模型的數學推理短板!
最近,蘋果公司的研究人員對大語言模型(LLM)的數學推理能力進行了深入研究,推出了一項名爲 GSM-Symbolic 的新基準測試。這個新基準測試是在 GSM8K 的基礎上發展的,後者主要用於評估基礎數學能力。雖然許多 LLM 在 GSM8K 上的表現有所提升,但科學界對這些模型的推理能力仍然存有疑問,認爲現有的評估指標可能無法全面反映它們的真實能力。研究發現,LLM 通常依賴於概率模式匹配,而非真正的邏輯推理,導致它們對輸入的小變化非常敏感。在這項新研究中,研究人員使用符號模板生成