文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
国产AI大模型竞争加剧,继DeepSeek V4引发热议后,月之暗面旗下Kimi K3预计今年第三季度亮相,参数规模或达2.5万亿,远超DeepSeek V4 Pro的1.6万亿和百度文心5.0的约1万亿,参数规模成为衡量模型能力的关键指标。
美图旗下AI Agent RoboNeo于4月28日接入阿里多模态视频生成模型HappyHorse,结合Seedance 2.0能力升级产品视频创作体验。此次迭代在连续镜头生成、声画同步及素材一致性基础上,拓展了创作维度。RoboNeo自2025年7月上线后全球表现强劲,获瑞银报告关注。
Anthropic更新支持文档,暗示Claude Pro订阅用户调用Opus模型(尤其Claude Code功能)时可能需额外付费,引发用户不满,担忧20美元月费权益被削弱。官方澄清仅为技术调整,非政策变更。

阿里巴巴达摩院联合广东省人民医院等机构,研发出新型肠癌筛查AI模型DAMO COCA。该模型在2.7万份平扫CT影像中精准识别出5例漏诊肠癌,敏感性和特异性分别达86.6%和99.8%,可大幅降低医生误诊率,助力肠癌早期筛查。

蚂蚁集团在第九届数字中国建设峰会上首次以“Data+AI”为核心,展示从底层技术到产业应用的全栈布局,标志数据战略升级至“智能可信流转”新阶段。通过将大模型融入生活场景,实现AI工具化落地,医疗AI应用“蚂蚁阿福”已服务超1亿用户,并与福州市卫健委合作。
2026北京车展上,火山引擎推出基于Agentic AI架构的新一代汽车AI解决方案,包括AI座舱套件和豆包座舱助手。该方案旨在将智能座舱从“语音交互”升级为具备自主思考与执行能力的“汽车大脑”。火山引擎副总裁杨立伟表示,此次升级通过三大底层引擎,打破现有座舱能力边界。

全新荣威i6今日上市,外观向荣威D7看齐,前脸采用大尺寸直瀑式格栅配星环灯带,车尾小鸭尾与贯穿尾灯呼应,造型更年轻。车身尺寸为4767/1828/1498mm,轴距2755mm,定位紧凑型轿车。
中国科学院于4月28日在北京发布“磐石100”模型体系,以“磐石”科学基础大模型为底座,构建涵盖数学、物理、材料、天文、环境、空天、地理及生命科学八大领域的学科大模型集群。此举标志着AI for Science从分散单点探索转向协同高效的平台化创新阶段,核心底座升级,实现三大功能全方位赋能。
中国科学院4月28日发布“磐石100”模型体系,标志我国AI for Science从单点探索进入体系化创新。该体系以“磐石”科学基础大模型为底座,构建覆盖数学、物理、材料、生命科学等八大重点学科的模型集群,形成数智化科研平台,实现从基础到应用的完整技术架构。
华为联合生态伙伴发布教育AI战略及全场景校园方案,依托鸿蒙分布式技术与AI大模型深度融合,打破设备硬件边界,实现教学终端无缝协同,推动教育数字化转型进入新阶段。