AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
数据集市
ZH

AI资讯

查看更多

科学家们有话说!SciArena 平台上线,多维度评测大语言模型科学表现

一个名为 SciArena 的全新开放平台现已上线,旨在通过人类偏好评估大型语言模型(LLM)在科学文献任务中的表现。早期结果已揭示不同模型之间存在显著的性能差距。SciArena 由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员共同开发,旨在系统性评估专有和开源 LLM 处理科学文献任务的效果,填补了该领域系统性评估的空白。与传统基准测试不同,SciArena 效仿 Chatbot Arena 的方法,依靠真实研究人员进行评估。用户提交科学问题后,会收到两个由模型生成并引用的长格式答案,随后用

6.2k 前天
科学家们有话说!SciArena 平台上线,多维度评测大语言模型科学表现
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
商务合作网站地图