全球50多位物理学家联合开发“CritPt”基准测试,评估AI模型处理未公开复杂物理问题的能力,模拟博士研究生独立研究水平。尽管谷歌Gemini3Pro和OpenAI GPT-5被寄予厚望,但结果令人失望,Gemini3Pro准确率仅9.1%,突显AI在高级科研任务中的局限。
最新物理基准测试“CritPt”显示,顶尖AI模型如Gemini3Pro和GPT-5距离成为自主科学家仍有巨大差距。该测试由全球50多位物理学家开发,重点考核博士级科研实战能力,而非单纯知识记忆,突显AI在创造性研究中的局限性。
OpenAI发布新一代GPT-5模型,强化计算与语言能力,重点应用于数学与科学研究。该技术有望加速药物研发和新材料发现进程,助力科研高效解决复杂问题,顺应AI推动科技发展的行业趋势。
美国能源部与AMD签署10亿美元合作协议,将共同建造两台超级计算机,用于支持核能利用、癌症治疗和国家安全等重大科研领域。美能源部长表示,此举将显著提升美国在复杂实验中的数据处理能力。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Openai
-
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
$4
$16
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
256
Moonshot
128
$0.15
$1.5
Baidu
32
Tencent
$1
camenduru
FLUX.1 [dev] 是一个具有120亿参数的整流流变压器,专门用于文本到图像生成。它在图像生成质量方面表现卓越,仅次于FLUX.1 [pro],具有出色的提示跟随能力和高效的训练方式,为科研和创作提供强大支持。