微软内部营销文档显示,其顶配版Copilot+电脑在多核性能上已超越苹果M4芯片版MacBook Air。根据2025年6月至9月的内部基准测试,在Cinebench2024多核测试中,微软高端AI电脑表现更优,展现出对竞争对手的强劲挑战。
视频会议巨头Zoom在顶级AI基准测试中刷新世界纪录,以48.1%的成绩超越谷歌等巨头,其成功关键在于采用联邦式AI路径,而非直接训练底层模型。
Meta 的 Llama 4 项目被曝出数据“美化”丑闻,前首席科学家杨立昆承认团队为优化基准测试结果调整了数据。这一行为引发争议,暴露了 Meta 在 AI 技术发展中的管理偏差。此前,Llama 系列因开源策略备受认可,但此次事件可能影响其声誉。
OpenAI宣布GPT-5.2在ARC-AGI-2基准测试中超越人类基线,该测试评估AI的抽象推理和举一反三能力,而非模式记忆。这一突破标志着AI在处理新任务时已跨越“及格线”,向专家级智能迈进。
强大的开源Kimi K2聊天平台,通过Kimi AI在编程和数学基准测试中超越GPT-4。企业级Kimi AI,成本降低95%。
用于评估Windows PC或Apple Mac上AI推理引擎性能的基准测试工具。
用于衡量设备 AI 加速器推理性能的基准测试工具。
开源AI芯片性能基准测试平台
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
$21
Alibaba
-
Bytedance
Baidu
Tencent
$2
64
$0.8
$8
256
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
unsloth
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个方面有显著改进,包括更长的上下文窗口、更优的编码性能和更强的推理能力。该模型在多个公开基准测试中表现出色,与国内外领先模型相比具有竞争优势。
GLM-4.6是智谱AI开发的新一代大语言模型,相比GLM-4.5在上下文处理、编码能力和推理性能方面有显著提升。该模型支持200K上下文长度,在多个公开基准测试中表现出色,特别在代码生成、推理和代理任务方面具有竞争优势。
cpatonn
GLM-4.5V-AWQ-4bit是基于智谱AI下一代旗舰文本基础模型构建的量化版本多模态模型,通过AWQ-4bit量化技术优化,在保持优异性能的同时显著降低计算资源需求。该模型在42个公开视觉语言基准测试中达到同规模模型的SOTA性能,具备强大的视觉推理能力。
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
Devstral是一款专为软件工程任务打造的大语言模型,由Mistral AI和All Hands AI合作开发。在SWE-bench基准测试中表现优异,是排名第一的开源模型。
qihoo360
Light-R1-7B-DS是基于DeepSeek-R1-Distill-Qwen-7B微调的开源7B数学模型,在AIME24和25等数学基准测试中表现优异。
Light-R1-14B-DS是一个14B参数的数学SOTA模型,采用强化学习训练,在AIME24/25和GPQA基准测试中表现优异。
desklib
由Desklib开发的AI生成文本检测模型,用于区分人类撰写和AI生成的英文文本,在RAID基准测试中表现领先。
RUC-AIBOX
STILL-3-1.5B-preview是一款采用强化学习技术增强推理能力的慢思考模型,在AIME基准测试中达到39.33%准确率
scb10x
台风T1 3B是SCB 10X开发的新型开放推理模型系列的首款产品。该模型基于Llama 3.2架构,具备跨领域推理能力,在GPQA、MMLU Pro和AI数学奥林匹克等基准测试中表现优异,特别支持泰语推理过程生成。
apple
AIMv2是采用多模态自回归目标预训练的视觉模型系列,在多项多模态理解基准测试中表现优异。
AIMv2是一个采用多模态自回归目标预训练的视觉模型系列,在多项多模态理解基准测试中表现优异。
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异。
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多个基准测试中表现优异。
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多个基准测试中表现优异
AIMv2 是一个通过多模态自回归目标预训练的视觉模型系列,在多个多模态理解基准测试中表现优异。
MCP服务器测试工具是一个配置驱动的测试解决方案,用于验证、基准测试和确保与AI模型集成的MCP服务器的可靠性。它支持自动发现工具、生成智能测试用例、执行验证并生成详细报告。
AutoGPT是一个开源AI代理框架,旨在让每个人都能轻松构建和使用AI代理。项目提供Forge工具链简化开发流程,包含基准测试、用户界面和CLI工具,支持通过Agent Protocol标准实现兼容性,并设有竞技场排行榜激励开发者优化代理性能。
MeshSeeks是一个基于多代理并行处理技术的AI任务解决平台,通过创建专业化的AI代理网络,实现复杂编码问题的快速分解与协同解决。项目提供4倍上下文容量、实时状态面板和智能任务协调功能,显著提升开发效率(基准测试显示速度提升3.64倍)。