《自然》杂志报道,GPT-4o 在“人类终极考试”中仅得 2.7 分(满分 100),表现最佳 AI 模型也仅 8 分。这一结果引发对 AI 真实能力的质疑。传统测试难以反映真实水平,主要因“基准饱和”问题。
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
Alibaba
-
$2
64
Chatglm
$8
$16
128
Openai
$14
$56
Baidu
01-ai
$100
Google
$3.5
$10.5
32
4
Baichuan