文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。


Anthropic 升级 Claude 为集成化工作空间,用户可直接在界面内操作主流办公应用,无需切换标签页即可完成项目管理、消息起草、演示文稿制作等任务。首批集成包括 Amplitude、Asana、Box、Canva、Figma、Slack 及 Salesforce 等平台。
Anthropic为Claude AI助手推出交互式集成工具,用户可直接在网页版或Mac客户端调用第三方设计与办公应用,无需切换标签页。该功能由开源的MCP模型上下文协议驱动,旨在打破软件壁垒,实现AI产品中的无缝协作。
Mindverse获2000万美元融资,推动AI应用向个性化转型。其个人专属模型通过万亿参数LoRA与强化学习技术,实现从概念到规模化落地的突破。

谷歌宣布其高性价比AI服务计划Google AI Plus已扩展至全球35个新市场,包括美国。该计划在美国定价为每月7.99美元,远低于Pro版的20美元,在印度等新兴市场价格更低。此举标志着谷歌从聚焦新兴市场转向全球全面推广。
云知声预计2025年大模型业务收入将达6亿至6.2亿元,较2024年的5187万元实现超10倍增长,增幅约1057%至1095%,展现强劲商业化势头。
百度智能云将2026年AI相关收入增速目标从100%大幅提升至200%,旨在巩固并扩大其在AI云市场的领先地位,冲刺行业第一。2025年数据显示,百度已在中国主流云厂商的大模型相关项目中中标109个,市场表现强劲。
广州钛动科技自研的“钛极”问答推理模型在SuperCLUE商业营销大模型榜单中以85.82分夺冠,超越多家大厂,展现垂直领域AI的强劲实力。

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、KimiK2.5悄然上线视觉与工具调用双升级KimiK2.5的发布标志着MoonshotAI在AI领域的持续发力,其视觉与工具调用功能的升级显著提升了模型的实用性。其核心数据资产将助力社区解决复杂场景的空间感知问题。

研究揭示AI就业冲击早于ChatGPT发布。大数据分析显示,2022年初AI相关职业需求已开始下滑,比公众认知提前数月。