歷史知識成AI軟肋:大型語言模型難解複雜歷史問題
最新研究顯示,儘管人工智能在編程和內容創作等領域表現出色,但在處理複雜的歷史問題時仍顯不足。近期在NeurIPS會議上公佈的一項研究表明,即使是最先進的大型語言模型(LLM)在歷史知識測試中也難以取得令人滿意的成績。研究團隊開發了名爲Hist-LLM的測試基準,對OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款頂級語言模型進行評估。測試基於Seshat全球歷史數據庫進行,結果令人失望:表現最佳的GPT-4Turbo準確率僅爲46%。圖源備註:圖片由AI生成,圖片授權服務商Midjourney倫敦大學學院副教授