AI模型在科学推理能力评估方面取得重要进展,已在国际数学和信息学奥林匹克竞赛中表现优异。随着GPT-5等先进模型的发展,AI正有效加速真实科学研究进程,展现出强大的假设提出、测试修正及跨领域综合能力。
南洋理工大学推出首个全面评测大型语言模型处理电子病历能力的基准EHRStruct,涵盖11项核心任务、2200个样本,旨在评估模型在医疗数据理解、信息提取等方面的表现,推动医疗AI发展。
Cohere发布Rerank4搜索模型,上下文窗口扩展至32K,比前代提升四倍。该模型能处理更长文档,同时评估多个段落,捕捉短窗口无法识别的关联,显著提升真实文档的排名准确性,帮助AI代理更高效地完成任务。
谷歌与Kaggle联合推出FACTS基准套件,旨在标准化评估AI模型的事实准确性。该基准针对法律、金融、医疗等对准确性要求高的行业,将“事实性”分为“上下文事实性”和“世界知识事实性”两个场景进行综合评估,填补了当前AI评估体系的空白。
AI模型软件工程能力评估工具
评估图像生成模型在不同地理区域的质量、多样性和一致性。
AI模型性能评估平台
ImagenHub:标准化条件图像生成模型的推理和评估
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
Sunbird
Sunflower-14B是由Sunbird AI开发的多语言大语言模型,专门针对乌干达语言设计。该模型基于Qwen 3-14B架构构建,支持31种乌干达语言以及英语的翻译和文本生成任务,在多项评估中表现出色。
ducklingcodehouse
这是一个专注于芬兰语牙科医学的对话式AI助手,经过LoRA微调的大语言模型,能够针对牙科咨询问题生成结构化的临床回复,分为背景、评估和建议三个部分。
RUC-AIBOX
STILL-3-TOOL-32B是一个通过Python代码辅助推理过程的大语言模型,在AIME 2024评估中达到81.70%准确率。
zai-org
GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,支持多语言和多种高级特性,包括网页浏览、代码执行、自定义工具调用和长文本推理等功能。
THUDM
GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,具备多语言支持等先进特性。
GLM-4-9B-Chat是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,支持多轮对话、网页浏览、代码执行等先进特性,还支持多语言及长上下文推理。
Paranchai
基于 airesearch/wav2vec2-large-xlsr-53-th 微调的语音情感识别模型,在评估集上达到85.79%准确率
Skywork
天工评判系列模型由天工AI对齐团队开发,包含70B和8B两款先进的评判模型,擅长进行成对偏好评估,能够对输入的文本对进行细致比较,判断其相对质量或适用性。
NYUAD-ComNets
该模型是一个用于检测AI生成图像的分类器,在评估集上取得了97.36%的准确率。
WhiteRabbitNeo
WhiteRabbitNeo是专注于网络安全的AI模型系列,33B版本展示其在攻防安全领域的能力并评估社会影响
Karko
Proctora是基于混合专家架构(MoE)的模型,结合了角色扮演和事实性回答的专家模块,支持32K上下文长度,在AI-RPG评估中表现优异。
cloudyu
Mixtral MOE 2x10.7B是一款基于混合专家架构的大语言模型,结合了Sakura-SOLAR-Instruct和CarbonVillain两个基础模型的优势。该模型在文本生成任务上表现出色,在多个公开数据集上进行了评估,包括AI2推理挑战、HellaSwag、MMLU等基准测试。
WhiteRabbitNeo是专注于网络安全的AI模型系列,可用于攻防测试和评估
AI-Sweden-Models
GPT-SW3是由AI Sweden与合作伙伴开发的多语言大语言模型,支持5种北欧语言和4种编程语言,专注于北欧语言处理能力的研究与评估。
MCP NMAP服务器是一个为AI助手提供网络扫描功能的协议服务器,通过标准化接口让AI模型能够使用NMAP进行网络分析和安全评估。
PageSpeed MCP服务器是一个连接AI助手与谷歌PageSpeed Insights API的桥梁,为AI模型提供网站性能分析功能,包括核心性能指标、SEO评估、可访问性审计和资源优化建议。
MCP代码索引器是一个专为AI大语言模型设计的智能代码检索工具,通过语义理解和向量化索引提升代码处理效率和准确性,支持代码分析、质量评估和依赖管理等功能。
该项目是一个Model Context Protocol (MCP)适配器,用于连接大型语言模型(LLM)与Lisp开发环境,支持通过轻量级Lisply协议进行交互。主要功能包括Lisp代码评估、HTTP请求和调试支持,适用于AI辅助符号编程、CAD设计自动化等场景。
YouTube MCP服务器是一个通过YouTube Data API v3提供实时YouTube数据访问的综合模型上下文协议服务器,支持14种功能,包括视频详情获取、频道分析、内容评估和字幕提取等,适用于AI助手集成。
一个基于Model Context Protocol的服务,提供Google PageSpeed Insights网页性能分析功能,使AI模型能通过标准化接口评估网页加载表现。
一个基于AI模型的维基百科文章搜索与分析服务,提供文章搜索、评估和分析功能,支持多种AI模型,并通过SSE流式传输结果。
MCPHubs是一个基于Next.js构建的网站,用于展示与Anthropic的Model Context Protocol (MCP)相关的开源项目。它通过GitHub API获取项目信息,并使用Google Gemini Pro模型进行AI分析,评估项目与MCP的相关性,提供项目列表、详情展示和README渲染功能。
这是一个基于模型上下文协议(MCP)的提示词优化服务器,使用AI增强和清理原始提示词,使其更清晰、可操作和有效。支持本地和云端LLM,提供质量评估和重试策略。