MiniMax推出开源基准测试OctoCodingBench,旨在评估编程智能体在代码仓库环境中遵循指令的能力。该测试弥补了现有基准(如SWE-bench)主要关注任务完成能力的不足,为智能体评估和优化提供了新方向。
OpenAI宣布GPT-5.2在ARC-AGI-2基准测试中超越人类基线,该测试评估AI的抽象推理和举一反三能力,而非模式记忆。这一突破标志着AI在处理新任务时已跨越“及格线”,向专家级智能迈进。
OpenAI收购企业教练软件平台Convogo,以增强企业级服务能力。此次全股票交易旨在吸纳其核心人才。Convogo源于创始人母亲的高管教练需求,通过AI自动化处理报告撰写和领导力评估工作。
AI模型在科学推理能力评估方面取得重要进展,已在国际数学和信息学奥林匹克竞赛中表现优异。随着GPT-5等先进模型的发展,AI正有效加速真实科学研究进程,展现出强大的假设提出、测试修正及跨领域综合能力。
测试你的vibe编码技能,评估AI使用能力,用于招聘AI人才
免费职业能力倾向测试,基于科学评估方法提供IT职业路径建议。
WebWalker是一个用于评估大型语言模型在网页遍历能力上的基准测试框架。
评估大型语言模型作为全栈开发者的能力
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Openai
-
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
$4
$16
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
256
Moonshot
128
$0.15
$1.5
Baidu
32
Tencent
$1
EpistemeAI
metatune-gpt20b是一个具有自改进能力的大语言模型原型,能够为自身生成新数据、评估自身性能,并根据改进指标调整超参数。该模型在博士后水平的科学和数学理解方面表现出色,同时也可用于编码任务。
ivan-kleshnin
这是一个基于mmBERT-small架构微调的文本分类模型,专门用于消息类型分类任务。在评估集上达到了93.94%的准确率,具有高效的文本分类能力。
beingbatman
本模型是基于VideoMAE-Large架构在Kinetics数据集上预训练后,在未知数据集上进行微调的视频理解模型。在评估集上取得了85.86%的准确率和0.7987的损失值,表现出优秀的视频分类能力。
Simia-Agent
本模型是基于Qwen/Qwen3-8B在特定数据集上微调的大语言模型,在评估集上取得了0.2248的损失值,具备改进的自然语言处理能力。
这是一个基于Qwen2.5-7B-Instruct进行微调的大语言模型,在C2_re_100k_tag5_cleaned_hermes_toolv6_dethink_replacedv1数据集上训练,在评估集上取得了0.2549的损失值,具备优化的对话和工具使用能力。
unsloth
GLM-4.5是为智能代理设计的基础模型,统一了推理、编码和智能代理能力,总参数达3550亿,在12个行业标准基准评估中排名第3,得分63.2。采用MIT开源许可,可用于商业和二次开发。
cognitivecomputations
DeepSeek-R1-0528是DeepSeek R1模型的小版本升级,通过增加计算资源和算法优化显著提升了推理能力,在数学、编程和通用逻辑等多个基准评估中表现出色。
OpenGVLab
VisualPRM-8B-v1.1 是一个具有80亿参数的先进多模态过程奖励模型,通过Best-of-N评估策略提升多模态大语言模型的推理能力。
NickyNicky
GSM8K 是一个包含8.5K个高质量小学数学问题的数据集,用于评估模型的数学推理能力。
PKU-Alignment
AnyRewardModel 是一个全模态生成奖励模型,用于评估多模态生成任务中模型遵循指令的能力,自动选择合适的模态,并在不同模态(文本、视觉、音频)间创建协同输出,同时避免冗余。
ruslandev
基于Meta-Llama-3-8B-Instruct微调的语言模型,通过GPT-4o提升数据质量,专注于俄语能力增强,在MT-Bench评估中俄语得分超过GPT-3.5-turbo。
KevSun
该模型通过优化现有模型,实现了对给定文本/句子进行大五人格特质评估的能力。
internlm
Agent-FLAN-7b是基于Llama2-7b模型,使用Agent-FLAN论文提出的数据生成管道,在AgentInstruct、Toolbench和ShareGPT数据集上进行混合微调得到的大语言模型。该模型专门针对智能体任务和工具使用能力进行了优化,在多种智能体评估数据集上表现出色,相比之前的最佳工作提升了3.5%。
WhiteRabbitNeo
WhiteRabbitNeo是专注于网络安全的AI模型系列,33B版本展示其在攻防安全领域的能力并评估社会影响
AI-Sweden-Models
GPT-SW3是由AI Sweden与合作伙伴开发的多语言大语言模型,支持5种北欧语言和4种编程语言,专注于北欧语言处理能力的研究与评估。
Nano Agent是一个实验性的小型工程代理MCP服务器,支持多提供商LLM模型,用于测试和比较云端与本地LLM在性能、速度和成本方面的代理能力。项目包含多模型评估系统、嵌套代理架构和统一工具接口,支持OpenAI、Anthropic和Ollama等提供商。
OpenFeature MCP服务器是一个本地工具,通过标准化协议连接AI编程助手与OpenFeature功能,提供SDK安装指导和功能标志评估能力,支持多种AI开发环境。
为AI助手提供小区评级、小区评估和房产估值专业能力的MCP服务器,基于多维度指标提供权威房产数据服务。
该项目通过ChatGPT测试LLM在信息检索、API集成(如IGN的APICARTO和GéoPlateforme服务)以及代码生成方面的能力,包括地理编码、邮政编码查询等功能,并探索AI在技术评估和开发辅助中的应用。
AWorld是一个多智能体系统框架,旨在弥合理论MAS能力与实际应用之间的差距,提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景,采用客户端-服务器架构,集成丰富工具链,并包含性能评估与训练功能。
一个基于Xdebug DBGp协议的MCP服务器,为AI助手提供PHP调试能力,支持断点、变量检查、表达式评估等完整调试功能。