AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
數據集市
TW

AI資訊

查看更多

科學家們有話說!SciArena 平臺上線,多維度評測大語言模型科學表現

一個名爲 SciArena 的全新開放平臺現已上線,旨在通過人類偏好評估大型語言模型(LLM)在科學文獻任務中的表現。早期結果已揭示不同模型之間存在顯著的性能差距。SciArena 由耶魯大學、紐約大學和艾倫人工智能研究所的研究人員共同開發,旨在系統性評估專有和開源 LLM 處理科學文獻任務的效果,填補了該領域系統性評估的空白。與傳統基準測試不同,SciArena 效仿 Chatbot Arena 的方法,依靠真實研究人員進行評估。用戶提交科學問題後,會收到兩個由模型生成並引用的長格式答案,隨後用

6.2k 前天
科學家們有話說!SciArena 平臺上線,多維度評測大語言模型科學表現
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商務合作網站地圖