歴史知識はAIの弱点:大規模言語モデルは複雑な歴史的問題を解きにくい
最新の研究によると、人工知能はプログラミングやコンテンツ作成などの分野で優れた成果を上げていますが、複雑な歴史問題を扱う際には依然として不十分であることが示されています。最近NeurIPS会議で発表されたある研究では、最先端の大規模言語モデル(LLM)でさえ、歴史知識のテストで満足のいく結果を得ることが難しいことが明らかになりました。研究チームはHist-LLMというテストベンチマークを開発し、OpenAIのGPT-4、MetaのLlama、GoogleのGeminiという3つのトップレベルの言語モデルを評価しました。テスト…