AIBase
Home
AI NEWS
AI Tools
GEO & AEO
MCP
AI Models
AI Marketplace
EN

AI News

View More

AI 学霸遭遇重创!GPT-4o 专家考试仅得 2.7 分

《自然》杂志报道,GPT-4o 在“人类终极考试”中仅得 2.7 分(满分 100),表现最佳 AI 模型也仅 8 分。这一结果引发对 AI 真实能力的质疑。传统测试难以反映真实水平,主要因“基准饱和”问题。

13.6k 12 hours ago
AI 学霸遭遇重创!GPT-4o 专家考试仅得 2.7 分

谷歌Gemini 3发布后迅速登顶LMArena排行榜,马斯克与阿尔特曼齐送祝贺

谷歌Gemini 3 Pro以1501 Elo创LMArena历史新高,超越GPT-5.1等模型,成多模态模型榜首。在科学、数学及视频任务中表现卓越,如“人类终极考试”达37.5%,GPQA Diamond 91.9%。Deep Think模式进一步提升推理能力,通用智能测试ARC-AGI-2得分45.1%。

17.6k 9 hours ago
谷歌Gemini 3发布后迅速登顶LMArena排行榜,马斯克与阿尔特曼齐送祝贺

月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元,性能登顶人类终极考试

国产AI公司月之暗面开源思考型模型Kimi K2Thinking,在HLE基准测试中以44.9%得分超越GPT-5等国际闭源模型,同时训练成本仅460万美元,展现高性价比优势,推动AI成本革命。

13.1k 1 days ago
月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元,性能登顶人类终极考试
AIBase
Empowering the future, your artificial intelligence solution think tank
English简体中文繁體中文にほんご
FirendLinks:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
Business CooperationSite Map