最好的科学文献 AI工具模型_精选科学文献资讯

AI资讯

AI“超级科学家”Kosmos问世：12小时完成人类半年科研量

FutureHouse推出AI科研系统Kosmos，12小时可处理1500篇论文、生成4.2万行代码，产出相当于人类团队半年工作量。系统基于结构化世界模型，在超千万token中保持逻辑连贯，已在神经科学等领域完成7项发现，含4项首次报道。其自主循环架构实现文献检索、知识图谱更新与规划迭代。

13.6k 前天

2025 全球 AI 人才榜单：华人专家和新兴力量的崛起

在2025全球数字经济大会上，首次发布的全球人工智能（AI）人才榜单引发广泛关注。该榜单基于近十年来近10万篇文献的深度分析，列出了全球 AI 领域的 Top100人才，其中华人科学家占据了重要席位，显示出他们在这一领域的卓越贡献与影响力。榜单的发布再次印证了业内人士的观点:“得华人科学家者得 AI 天下”。其中，何恺明作为深度学习的先驱之一，被誉为 “CV 界的诺奖级工作” 之父。他的残差学习（Residual Learning）概念突破了神经网络长期以来的 “梯度消失” 难题，极大推动了深

5.2k 昨天

科学家们有话说！SciArena 平台上线，多维度评测大语言模型科学表现

一个名为 SciArena 的全新开放平台现已上线，旨在通过人类偏好评估大型语言模型（LLM）在科学文献任务中的表现。早期结果已揭示不同模型之间存在显著的性能差距。SciArena 由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员共同开发，旨在系统性评估专有和开源 LLM 处理科学文献任务的效果，填补了该领域系统性评估的空白。与传统基准测试不同，SciArena 效仿 Chatbot Arena 的方法，依靠真实研究人员进行评估。用户提交科学问题后，会收到两个由模型生成并引用的长格式答案，随后用

8k 1 天前

北大团队首次系统性评估大语言模型心理特征，推动AI评估新标准

在人工智能迅猛发展的今天，大语言模型（LLM）展现出了超凡的能力，但如何科学评估它们的 “心智” 特征，比如价值观、性格和社交智能，依旧是一个亟待解决的难题。近期，北京大学的宋国杰教授团队发布了一篇全面的综述论文，系统梳理了大语言模型心理测量学的研究进展，为 AI 的评估提供了新视角。这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》，长达63页，引用了500篇相关文献。随着 LLM 能力的快速迭代，传统的评估方法已显不足。论文指出，当前评估

14.4k 01-23