Meta旗下Llama系列AI模型曾备受好评,但2025年4月推出的Llama4引发信任危机。Meta宣传其基准测试表现优秀,但开发者实测发现性能远低于宣传,外界怀疑Meta在测试中可能采取了不当手段。
2025年AI编程领域迎来爆发式增长,从代码补全进化到多代理协作系统,AI已成为能独立处理复杂任务的“智能伙伴”。斯坦福大学报告显示,AI在软件工程基准测试SWE-bench上的得分一年内大幅提升67.3个百分点,达到71.7%,标志着AI编程能力实现重大突破。
圣诞节当天,边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp,仅26亿参数,却在多项基准测试中表现优异,指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528,被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型,通过纯强化学习实现实验性突破。
OpenAI发布GPT-5.2-Codex,这是其最先进的智能体编程模型。它专为处理复杂、长期的现实编码任务设计,在基准测试中创下新纪录,并能自主完成从代码理解、环境搭建到漏洞挖掘和提交Pull Request的全流程。该模型融合了GPT-5.2的通用推理能力和GPT-5.1-Codex-Max的终端操作功能,标志着AI在软件工程实战能力上的重大突破。
强大的开源Kimi K2聊天平台,通过Kimi AI在编程和数学基准测试中超越GPT-4。企业级Kimi AI,成本降低95%。
用于评估Windows PC或Apple Mac上AI推理引擎性能的基准测试工具。
用于衡量设备 AI 加速器推理性能的基准测试工具。
开源AI芯片性能基准测试平台
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
$21
Alibaba
-
Bytedance
Baidu
Tencent
$2
64
$0.8
$8
256
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
unsloth
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个方面有显著改进,包括更长的上下文窗口、更优的编码性能和更强的推理能力。该模型在多个公开基准测试中表现出色,与国内外领先模型相比具有竞争优势。
GLM-4.6是智谱AI开发的新一代大语言模型,相比GLM-4.5在上下文处理、编码能力和推理性能方面有显著提升。该模型支持200K上下文长度,在多个公开基准测试中表现出色,特别在代码生成、推理和代理任务方面具有竞争优势。
cpatonn
GLM-4.5V-AWQ-4bit是基于智谱AI下一代旗舰文本基础模型构建的量化版本多模态模型,通过AWQ-4bit量化技术优化,在保持优异性能的同时显著降低计算资源需求。该模型在42个公开视觉语言基准测试中达到同规模模型的SOTA性能,具备强大的视觉推理能力。
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
Devstral是一款专为软件工程任务打造的大语言模型,由Mistral AI和All Hands AI合作开发。在SWE-bench基准测试中表现优异,是排名第一的开源模型。
qihoo360
Light-R1-7B-DS是基于DeepSeek-R1-Distill-Qwen-7B微调的开源7B数学模型,在AIME24和25等数学基准测试中表现优异。
Light-R1-14B-DS是一个14B参数的数学SOTA模型,采用强化学习训练,在AIME24/25和GPQA基准测试中表现优异。
desklib
由Desklib开发的AI生成文本检测模型,用于区分人类撰写和AI生成的英文文本,在RAID基准测试中表现领先。
RUC-AIBOX
STILL-3-1.5B-preview是一款采用强化学习技术增强推理能力的慢思考模型,在AIME基准测试中达到39.33%准确率
scb10x
台风T1 3B是SCB 10X开发的新型开放推理模型系列的首款产品。该模型基于Llama 3.2架构,具备跨领域推理能力,在GPQA、MMLU Pro和AI数学奥林匹克等基准测试中表现优异,特别支持泰语推理过程生成。
apple
AIMv2是采用多模态自回归目标预训练的视觉模型系列,在多项多模态理解基准测试中表现优异。
AIMv2是一个采用多模态自回归目标预训练的视觉模型系列,在多项多模态理解基准测试中表现优异。
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异。
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
AIMv2 是通过多模态自回归目标预训练的视觉模型系列,在多个视觉理解基准测试中表现优异。
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多个基准测试中表现优异。
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多个基准测试中表现优异
AIMv2 是一个通过多模态自回归目标预训练的视觉模型系列,在多个多模态理解基准测试中表现优异。
MCP服务器测试工具是一个配置驱动的测试解决方案,用于验证、基准测试和确保与AI模型集成的MCP服务器的可靠性。它支持自动发现工具、生成智能测试用例、执行验证并生成详细报告。
AutoGPT是一个开源AI代理框架,旨在让每个人都能轻松构建和使用AI代理。项目提供Forge工具链简化开发流程,包含基准测试、用户界面和CLI工具,支持通过Agent Protocol标准实现兼容性,并设有竞技场排行榜激励开发者优化代理性能。
MeshSeeks是一个基于多代理并行处理技术的AI任务解决平台,通过创建专业化的AI代理网络,实现复杂编码问题的快速分解与协同解决。项目提供4倍上下文容量、实时状态面板和智能任务协调功能,显著提升开发效率(基准测试显示速度提升3.64倍)。