AI模型在科学推理能力评估方面取得重要进展,已在国际数学和信息学奥林匹克竞赛中表现优异。随着GPT-5等先进模型的发展,AI正有效加速真实科学研究进程,展现出强大的假设提出、测试修正及跨领域综合能力。
南洋理工大学推出首个全面评测大型语言模型处理电子病历能力的基准EHRStruct,涵盖11项核心任务、2200个样本,旨在评估模型在医疗数据理解、信息提取等方面的表现,推动医疗AI发展。
谷歌FACTS团队与Kaggle联合发布FACTS基准测试套件,旨在评估生成式AI模型在企业任务中的事实性和真实性。该框架弥补了现有基准只关注问题解决能力、忽略输出信息与真实世界数据一致性的缺陷,尤其针对图像或图表中的信息嵌入,对法律、金融等关键领域尤为重要。
Evo-Memory是新型智能体框架,通过流式基准评估智能体在连续任务中积累和重用策略的能力,强调动态记忆演变,突破静态对话记录限制。
测试你的vibe编码技能,评估AI使用能力,用于招聘AI人才
免费职业能力倾向测试,基于科学评估方法提供IT职业路径建议。
WebWalker是一个用于评估大型语言模型在网页遍历能力上的基准测试框架。
评估大型语言模型作为全栈开发者的能力
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Openai
-
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
$4
$16
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
256
Moonshot
128
$0.15
$1.5
Baidu
32
Tencent
$1
EpistemeAI
metatune-gpt20b是一个具有自改进能力的大语言模型原型,能够为自身生成新数据、评估自身性能,并根据改进指标调整超参数。该模型在博士后水平的科学和数学理解方面表现出色,同时也可用于编码任务。
ivan-kleshnin
这是一个基于mmBERT-small架构微调的文本分类模型,专门用于消息类型分类任务。在评估集上达到了93.94%的准确率,具有高效的文本分类能力。
beingbatman
本模型是基于VideoMAE-Large架构在Kinetics数据集上预训练后,在未知数据集上进行微调的视频理解模型。在评估集上取得了85.86%的准确率和0.7987的损失值,表现出优秀的视频分类能力。
Simia-Agent
本模型是基于Qwen/Qwen3-8B在特定数据集上微调的大语言模型,在评估集上取得了0.2248的损失值,具备改进的自然语言处理能力。
这是一个基于Qwen2.5-7B-Instruct进行微调的大语言模型,在C2_re_100k_tag5_cleaned_hermes_toolv6_dethink_replacedv1数据集上训练,在评估集上取得了0.2549的损失值,具备优化的对话和工具使用能力。
unsloth
GLM-4.5是为智能代理设计的基础模型,统一了推理、编码和智能代理能力,总参数达3550亿,在12个行业标准基准评估中排名第3,得分63.2。采用MIT开源许可,可用于商业和二次开发。
cognitivecomputations
DeepSeek-R1-0528是DeepSeek R1模型的小版本升级,通过增加计算资源和算法优化显著提升了推理能力,在数学、编程和通用逻辑等多个基准评估中表现出色。
OpenGVLab
VisualPRM-8B-v1.1 是一个具有80亿参数的先进多模态过程奖励模型,通过Best-of-N评估策略提升多模态大语言模型的推理能力。
NickyNicky
GSM8K 是一个包含8.5K个高质量小学数学问题的数据集,用于评估模型的数学推理能力。
PKU-Alignment
AnyRewardModel 是一个全模态生成奖励模型,用于评估多模态生成任务中模型遵循指令的能力,自动选择合适的模态,并在不同模态(文本、视觉、音频)间创建协同输出,同时避免冗余。
ruslandev
基于Meta-Llama-3-8B-Instruct微调的语言模型,通过GPT-4o提升数据质量,专注于俄语能力增强,在MT-Bench评估中俄语得分超过GPT-3.5-turbo。
KevSun
该模型通过优化现有模型,实现了对给定文本/句子进行大五人格特质评估的能力。
internlm
Agent-FLAN-7b是基于Llama2-7b模型,使用Agent-FLAN论文提出的数据生成管道,在AgentInstruct、Toolbench和ShareGPT数据集上进行混合微调得到的大语言模型。该模型专门针对智能体任务和工具使用能力进行了优化,在多种智能体评估数据集上表现出色,相比之前的最佳工作提升了3.5%。
WhiteRabbitNeo
WhiteRabbitNeo是专注于网络安全的AI模型系列,33B版本展示其在攻防安全领域的能力并评估社会影响
AI-Sweden-Models
GPT-SW3是由AI Sweden与合作伙伴开发的多语言大语言模型,支持5种北欧语言和4种编程语言,专注于北欧语言处理能力的研究与评估。
Nano Agent是一个实验性的小型工程代理MCP服务器,支持多提供商LLM模型,用于测试和比较云端与本地LLM在性能、速度和成本方面的代理能力。项目包含多模型评估系统、嵌套代理架构和统一工具接口,支持OpenAI、Anthropic和Ollama等提供商。
为AI助手提供小区评级、小区评估和房产估值专业能力的MCP服务器,基于多维度指标提供权威房产数据服务。
该项目通过ChatGPT测试LLM在信息检索、API集成(如IGN的APICARTO和GéoPlateforme服务)以及代码生成方面的能力,包括地理编码、邮政编码查询等功能,并探索AI在技术评估和开发辅助中的应用。
AWorld是一个多智能体系统框架,旨在弥合理论MAS能力与实际应用之间的差距,提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景,采用客户端-服务器架构,集成丰富工具链,并包含性能评估与训练功能。