Best 历史知识 AI Tools & Models - Premium 历史知识 News

AI News

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

近日，一项由奥地利复杂科学研究所（CSH）主导的研究显示，尽管大型语言模型(LLMs)在多项任务中表现优异，但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试，包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini，结果让人失望。图源备注：图片由AI生成，图片授权服务商Midjourney为了评估这些模型在历史知识上的表现，研究者们开发了一个名为 “Hist-LLM” 的基准测试工具。该工具依据 Seshat 全球历史数据库，旨在验证 AI 回答历史问题的准确性。研究结果在知名人工智

10.8k 2 days ago

历史知识成AI软肋:大型语言模型难解复杂历史问题

最新研究显示，尽管人工智能在编程和内容创作等领域表现出色，但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明，即使是最先进的大型语言模型（LLM）在历史知识测试中也难以取得令人满意的成绩。研究团队开发了名为Hist-LLM的测试基准，对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行，结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。图源备注：图片由AI生成，图片授权服务商Midjourney伦敦大学学院副教授

11.8k 13 hours ago

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

​AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

历史知识成AI软肋:大型语言模型难解复杂历史问题

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%