AI、高度な歴史試験で不合格:GPT-4 Turboの正解率はわずか46%
オーストリア複雑系科学研究所(CSH)が主導した最近の研究によると、大規模言語モデル(LLM)は多くのタスクで優れた成績を収めているものの、高度な歴史問題への対応においては弱点が見られました。研究チームはOpenAIのGPT-4、MetaのLlama、GoogleのGeminiという3つのトップモデルをテストした結果、期待外れの結果となりました。画像に関する注記:画像はAIによって生成され、画像ライセンスプロバイダーMidjourneyから提供されています。これらのモデルの歴史に関する評価のため…