最新物理基准测试“CritPt”显示,顶尖AI模型如Gemini3Pro和GPT-5距离成为自主科学家仍有巨大差距。该测试由全球50多位物理学家开发,重点考核博士级科研实战能力,而非单纯知识记忆,突显AI在创造性研究中的局限性。
FutureHouse推出AI科研系统Kosmos,12小时可处理1500篇论文、生成4.2万行代码,产出相当于人类团队半年工作量。系统基于结构化世界模型,在超千万token中保持逻辑连贯,已在神经科学等领域完成7项发现,含4项首次报道。其自主循环架构实现文献检索、知识图谱更新与规划迭代。
西湖大学推出AI科学家DeepScientist,两周完成人类三年科研量,自主产生5000个科学想法并验证1100个,在三个前沿AI任务中打破人类纪录,展现强大独立科研能力,超越传统辅助工具局限。
OpenAI下一代大语言模型GPT-5预计2025年8月或更晚发布,参数规模或达3-50万亿,采用混合专家模型架构。核心亮点包括:增强多模态处理能力(文本/图像/语音/视频)、支持500万token上下文窗口、降低"幻觉"率至10%以下、引入自主AI代理功能。将显著提升编程、科研和商业领域效率,但面临高昂训练成本(超5亿美元)、伦理安全及行业竞争等挑战。开发者社区对其编程能力提升尤为期待。
Anthropic
$21
Input tokens/M
$105
Output tokens/M
200
Context Length
Alibaba
$54
$163
1k
-
32
Chatglm
$8
$16
128
Xai
256
$525
$2
Openai
$420
Iflytek
8
Moonshot
$1
131