最好的历史知识 AI工具模型_精选历史知识资讯

AI资讯

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

近日，一项由奥地利复杂科学研究所（CSH）主导的研究显示，尽管大型语言模型(LLMs)在多项任务中表现优异，但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试，包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini，结果让人失望。图源备注：图片由AI生成，图片授权服务商Midjourney为了评估这些模型在历史知识上的表现，研究者们开发了一个名为 “Hist-LLM” 的基准测试工具。该工具依据 Seshat 全球历史数据库，旨在验证 AI 回答历史问题的准确性。研究结果在知名人工智

12.2k 前天

历史知识成AI软肋:大型语言模型难解复杂历史问题

最新研究显示，尽管人工智能在编程和内容创作等领域表现出色，但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明，即使是最先进的大型语言模型（LLM）在历史知识测试中也难以取得令人满意的成绩。研究团队开发了名为Hist-LLM的测试基准，对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行，结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。图源备注：图片由AI生成，图片授权服务商Midjourney伦敦大学学院副教授

12.1k 昨天

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图

AI资讯

​AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

历史知识成AI软肋:大型语言模型难解复杂历史问题

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%