最新研究:AI 模型在回答事實問題時表現拉胯, GPT-4o準確率才38.2%
最近,一項由 OpenAI 進行的研究顯示,儘管人工智能技術飛速發展,當前最先進的語言模型在回答事實問題時的成功率卻遠低於預期。研究採用了 OpenAI 自家的 SimpleQA 基準測試,這個測試包含了4,326個,涵蓋了科學、政治和藝術等多個領域,每個問題都有一個明確的正確答案。經過兩名獨立評審員的驗證,結果顯示,OpenAI 最好的模型 o1-preview 的準確率僅爲42.7%,而 GPT-4o 則略低,只有38.2%。至於更小的 GPT-4o-mini,準確率甚至只有8.6%。相比之下,Anthropic 的 Claude 模型表現得更差,Claude-3.5-sonn