AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

苹果研究团队发布新基准GSM-Symbolic:揭示大语言模型的数学推理短板!

最近,苹果公司的研究人员对大语言模型(LLM)的数学推理能力进行了深入研究,推出了一项名为 GSM-Symbolic 的新基准测试。这个新基准测试是在 GSM8K 的基础上发展的,后者主要用于评估基础数学能力。虽然许多 LLM 在 GSM8K 上的表现有所提升,但科学界对这些模型的推理能力仍然存有疑问,认为现有的评估指标可能无法全面反映它们的真实能力。研究发现,LLM 通常依赖于概率模式匹配,而非真正的逻辑推理,导致它们对输入的小变化非常敏感。在这项新研究中,研究人员使用符号模板生成

16.4k 12-15
苹果研究团队发布新基准GSM-Symbolic:揭示大语言模型的数学推理短板!

苹果研究揭示:大语言模型推理能力严重缺陷

最近,苹果公司进行了一项关于大语言模型(LLM)推理能力的研究,引发了人们对这些模型在数学领域表现的关注。众所周知,GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力。尽管 LLM 在 GSM8K 上的表现近年来有所提高,但研究人员对此结果的可靠性产生了质疑。因此,他们进行了大规模的研究,探讨当前最先进的开源和闭源模型的表现。为了更好地评估模型的推理能力,研究团队引入了一种改进的基准测试 ——GSM-Symbolic。这个新基准测试使用符号模板生成多样化的问题,

12.8k 昨天
苹果研究揭示:大语言模型推理能力严重缺陷
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商务合作网站地图