科學家們有話說!SciArena 平臺上線,多維度評測大語言模型科學表現
一個名爲 SciArena 的全新開放平臺現已上線,旨在通過人類偏好評估大型語言模型(LLM)在科學文獻任務中的表現。早期結果已揭示不同模型之間存在顯著的性能差距。SciArena 由耶魯大學、紐約大學和艾倫人工智能研究所的研究人員共同開發,旨在系統性評估專有和開源 LLM 處理科學文獻任務的效果,填補了該領域系統性評估的空白。與傳統基準測試不同,SciArena 效仿 Chatbot Arena 的方法,依靠真實研究人員進行評估。用戶提交科學問題後,會收到兩個由模型生成並引用的長格式答案,隨後用