信息

AI新闻资讯

探索AI前沿，掌握行业发展趋势

最新AI日报

每日精选AI热点，追踪最新行业动态

信息

AI 商用·开源产品库

精准筛选产品，多维度产品调研

AI 产品排行榜

热门AI产品实力、热度、年/月/日排行

AI产品提交

提交AI产品信息，助力产品推广和用户转化

工具

AI工具导航

一站式AI工具指南，快速找到你需要的工具

工具

GEO品牌全景分析

企业级监测平台，全域追踪品牌在 12+ AI 平台的表现

GEO品牌得分检测

输入品牌生成综合健康度得分，快速定位整体位置与短板

GEO排名查询

单次提问，立刻看到品牌在多个 AI 平台回答中的排名

GEO推广链接检测

追踪投放的推广链接，评估哪些渠道真正被 AI 引用

服务

GEO排名优化系统源码

拥有属于自己的GEO系统，助您成为专业GEO优化服务商

GEO 排名优化服务

通过AI搜索优化服务，让品牌在AI中实现霸屏

信息

MCP服务端

聚集热门MCP服务，快速找到适合你的服务

MCP客户端

轻松接入MCP客户端，调用强大的AI能力

MCP教程与实践

学习MCP使用技巧，从入门到精通

MCP排行榜

热门MCP服务性能排行，帮你找到最佳选择

MCP服务提交

发布你的MCP服务，推广你的MCP服务

工具

MCP实验场

自由测试MCP服务，线上快速体验

MCP服务调试器

快速测试MCP服务，快速上线

信息

大模型API聚合平台

国内外主流大模型的统一API接入与调用服务

模型库

涵盖各类AI模型，满足你的开发与研究需求

模型供应商

寻找优质模型提供商，获取可靠模型支持

大模型排行榜

热门AI大模型性能、热度、年/月/日排行

工具

大模型选型对比

多维度对比大模型，找到最适合你的模型

大模型费用计算器

精准计算大模型使用成本，合理规划预算

大模型竞技场

多模型实时评测，模型输出结果快速比对

模型个人电脑配置检测器

一键检测电脑配置，研判运行模型的兼容性

模型部署服务器配置计算器

根据算力需求，推荐匹配的服务器配置

“百模大战”家家第一,大模型“跑分”作弊何时休?

罗超频道

发布于AI新闻资讯 · 1 分钟阅读 · Nov 29, 2023

83

文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。

大模型评测大模型跑分大模型应用

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

© 版权所有 AIbase基地 2024, 点击查看来源出处 -

loading...

相关AI新闻推荐

万亿级算力竞赛升级：Kimi K3 曝于三季度发布，参数规模直指 2.5 万亿

万亿级算力竞赛升级：Kimi K3 曝于三季度发布，参数规模直指 2.5 万亿

国产AI大模型竞争加剧，继DeepSeek V4引发热议后，月之暗面旗下Kimi K3预计今年第三季度亮相，参数规模或达2.5万亿，远超DeepSeek V4 Pro的1.6万亿和百度文心5.0的约1万亿，参数规模成为衡量模型能力的关键指标。

2026年4月28号 17:49

美图RoboNeo接入阿里HappyHorse模型，视频创作能力实现全面迭代

美图RoboNeo接入阿里HappyHorse模型，视频创作能力实现全面迭代

美图旗下AI Agent RoboNeo于4月28日接入阿里多模态视频生成模型HappyHorse，结合Seedance 2.0能力升级产品视频创作体验。此次迭代在连续镜头生成、声画同步及素材一致性基础上，拓展了创作维度。RoboNeo自2025年7月上线后全球表现强劲，获瑞银报告关注。

2026年4月28号 16:44

不用额外掏钱！Anthropic 紧急辟谣：Claude Pro 用户仍可免费使用 Opus 模型

不用额外掏钱！Anthropic 紧急辟谣：Claude Pro 用户仍可免费使用 Opus 模型

Anthropic更新支持文档，暗示Claude Pro订阅用户调用Opus模型（尤其Claude Code功能）时可能需额外付费，引发用户不满，担忧20美元月费权益被削弱。官方澄清仅为技术调整，非政策变更。

2026年4月28号 16:38

阿里巴巴发布创新癌症AI模型助力肠癌筛查

阿里巴巴发布创新癌症AI模型助力肠癌筛查

阿里巴巴达摩院联合广东省人民医院等机构，研发出新型肠癌筛查AI模型DAMO COCA。该模型在2.7万份平扫CT影像中精准识别出5例漏诊肠癌，敏感性和特异性分别达86.6%和99.8%，可大幅降低医生误诊率，助力肠癌早期筛查。

2026年4月28号 16:12

蚂蚁集团亮相第九届数字中国建设峰会，Data+AI应用成果首次集中展出

蚂蚁集团亮相第九届数字中国建设峰会，Data+AI应用成果首次集中展出

蚂蚁集团在第九届数字中国建设峰会上首次以“Data+AI”为核心，展示从底层技术到产业应用的全栈布局，标志数据战略升级至“智能可信流转”新阶段。通过将大模型融入生活场景，实现AI工具化落地，医疗AI应用“蚂蚁阿福”已服务超1亿用户，并与福州市卫健委合作。

2026年4月28号 15:13

火山引擎发布新一代汽车 AI 方案超700万汽车辆搭载豆包大模型

火山引擎发布新一代汽车 AI 方案超700万汽车辆搭载豆包大模型

2026北京车展上，火山引擎推出基于Agentic AI架构的新一代汽车AI解决方案，包括AI座舱套件和豆包座舱助手。该方案旨在将智能座舱从“语音交互”升级为具备自主思考与执行能力的“汽车大脑”。火山引擎副总裁杨立伟表示，此次升级通过三大底层引擎，打破现有座舱能力边界。

2026年4月28号 14:51

6. 59 万起！全新荣威i6 正式上市：搭载骁龙 8155 与豆包大模型

6. 59 万起！全新荣威i6 正式上市：搭载骁龙 8155 与豆包大模型

全新荣威i6今日上市，外观向荣威D7看齐，前脸采用大尺寸直瀑式格栅配星环灯带，车尾小鸭尾与贯穿尾灯呼应，造型更年轻。车身尺寸为4767/1828/1498mm，轴距2755mm，定位紧凑型轿车。

2026年4月28号 14:46

科学界“八仙过海”！中国科学院发布“磐石100”大模型体系，AI赋能科研进入“平台化”时代

科学界“八仙过海”！中国科学院发布“磐石100”大模型体系，AI赋能科研进入“平台化”时代

中国科学院于4月28日在北京发布“磐石100”模型体系，以“磐石”科学基础大模型为底座，构建涵盖数学、物理、材料、天文、环境、空天、地理及生命科学八大领域的学科大模型集群。此举标志着AI for Science从分散单点探索转向协同高效的平台化创新阶段，核心底座升级，实现三大功能全方位赋能。

2026年4月28号 14:22

中国科学院发布“磐石100”模型体系，加速AI for Science平台化演进

中国科学院发布“磐石100”模型体系，加速AI for Science平台化演进

中国科学院4月28日发布“磐石100”模型体系，标志我国AI for Science从单点探索进入体系化创新。该体系以“磐石”科学基础大模型为底座，构建覆盖数学、物理、材料、生命科学等八大重点学科的模型集群，形成数智化科研平台，实现从基础到应用的完整技术架构。

2026年4月28号 14:20

华为擎云发布教育AI解决方案：鸿蒙与大模型深入校园全场景

华为擎云发布教育AI解决方案：鸿蒙与大模型深入校园全场景

华为联合生态伙伴发布教育AI战略及全场景校园方案，依托鸿蒙分布式技术与AI大模型深度融合，打破设备硬件边界，实现教学终端无缝协同，推动教育数字化转型进入新阶段。

2026年4月28号 11:35