AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

​AI 在高级历史考试中表现不佳:GPT-4 Turbo 准确率仅 46%

近日,一项由奥地利复杂科学研究所(CSH)主导的研究显示,尽管大型语言模型(LLMs)在多项任务中表现优异,但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,结果让人失望。图源备注:图片由AI生成,图片授权服务商Midjourney为了评估这些模型在历史知识上的表现,研究者们开发了一个名为 “Hist-LLM” 的基准测试工具。该工具依据 Seshat 全球历史数据库,旨在验证 AI 回答历史问题的准确性。研究结果在知名人工智

11.5k 前天
​AI 在高级历史考试中表现不佳:GPT-4 Turbo 准确率仅 46%

历史知识成AI软肋:大型语言模型难解复杂历史问题

最新研究显示,尽管人工智能在编程和内容创作等领域表现出色,但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明,即使是最先进的大型语言模型(LLM)在历史知识测试中也难以取得令人满意的成绩。研究团队开发了名为Hist-LLM的测试基准,对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行,结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。图源备注:图片由AI生成,图片授权服务商Midjourney伦敦大学学院副教授

12.4k 1 天前
历史知识成AI软肋:大型语言模型难解复杂历史问题
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图