Best 人类终极考试 AI Tools & Models - Premium 人类终极考试 News

AI News

AI 学霸遭遇重创！GPT-4o 专家考试仅得 2.7 分

《自然》杂志报道，GPT-4o 在“人类终极考试”中仅得 2.7 分（满分 100），表现最佳 AI 模型也仅 8 分。这一结果引发对 AI 真实能力的质疑。传统测试难以反映真实水平，主要因“基准饱和”问题。

谷歌Gemini 3发布后迅速登顶LMArena排行榜，马斯克与阿尔特曼齐送祝贺

谷歌Gemini 3 Pro以1501 Elo创LMArena历史新高，超越GPT-5.1等模型，成多模态模型榜首。在科学、数学及视频任务中表现卓越，如“人类终极考试”达37.5%，GPQA Diamond 91.9%。Deep Think模式进一步提升推理能力，通用智能测试ARC-AGI-2得分45.1%。

17.6k 9 hours ago

月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元，性能登顶人类终极考试

国产AI公司月之暗面开源思考型模型Kimi K2Thinking，在HLE基准测试中以44.9%得分超越GPT-5等国际闭源模型，同时训练成本仅460万美元，展现高性价比优势，推动AI成本革命。

13.1k 1 days ago

月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元，性能登顶人类终极考试

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map