最好的能力评估 AI工具模型_精选能力评估资讯

AI资讯

编程智能体的新标准！MiniMax 发布 OctoCodingBench 基准测试

MiniMax推出开源基准测试OctoCodingBench，旨在评估编程智能体在代码仓库环境中遵循指令的能力。该测试弥补了现有基准（如SWE-bench）主要关注任务完成能力的不足，为智能体评估和优化提供了新方向。

12.9k 21 小时前

GPT-5.2 性能首超人类基准：OpenAI 预警“大模型能力过剩”时代开启

OpenAI宣布GPT-5.2在ARC-AGI-2基准测试中超越人类基线，该测试评估AI的抽象推理和举一反三能力，而非模式记忆。这一突破标志着AI在处理新任务时已跨越“及格线”，向专家级智能迈进。

9.3k 16 小时前

OpenAI 开年首单:收购高管教练 AI 平台 Convogo 核心团队

OpenAI收购企业教练软件平台Convogo，以增强企业级服务能力。此次全股票交易旨在吸纳其核心人才。Convogo源于创始人母亲的高管教练需求，通过AI自动化处理报告撰写和领导力评估工作。

7.4k 1 天前

AI 科学研究新基准:FrontierScience 评估模型推理能力

AI模型在科学推理能力评估方面取得重要进展，已在国际数学和信息学奥林匹克竞赛中表现优异。随着GPT-5等先进模型的发展，AI正有效加速真实科学研究进程，展现出强大的假设提出、测试修正及跨领域综合能力。

9k 2 天前

AI产品

VibeOnly

测试你的vibe编码技能，评估AI使用能力，用于招聘AI人才

求职

7.8k

TripleTen Career Aptitude Test

免费职业能力倾向测试，基于科学评估方法提供IT职业路径建议。

求职

7.1k

WebWalker

WebWalker是一个用于评估大型语言模型在网页遍历能力上的基准测试框架。

AI模型

9.6k

FullStack Bench

评估大型语言模型作为全栈开发者的能力

开发与工具

9.2k

模型

Grok 4 Fast

Xai

$1.4

输入tokens/百万

$3.5

输出tokens/百万

上下文长度

GPT-5 Codex

Openai

输入tokens/百万

输出tokens/百万

上下文长度

Claude 3 Opus

Anthropic

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Gemini 2.0 Flash

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

Claude Haiku 4.5

Anthropic

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash

Google

$2.1

输入tokens/百万

$17.5

输出tokens/百万

上下文长度

Claude Sonnet 4.5

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Claude 3 Sonnet

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

qwen3-coder-plus

Alibaba

输入tokens/百万

$16

输出tokens/百万

上下文长度

qwen3-vl-235b-a22b-thinking

Alibaba

输入tokens/百万

$20

输出tokens/百万

上下文长度

wan2.5-i2v-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-omni-flash-realtime

Alibaba

$3.9

输入tokens/百万

$15.2

输出tokens/百万

上下文长度

Doubao-Seed-1.6

Bytedance

$0.8

输入tokens/百万

输出tokens/百万

256

上下文长度

Kimi-K2

Moonshot

输入tokens/百万

$16

输出tokens/百万

256

上下文长度

Doubao-1.5-pro-32k

Bytedance

$0.8

输入tokens/百万

输出tokens/百万

128

上下文长度

Doubao-Seed-1.6-flash

Bytedance

$0.15

输入tokens/百万

$1.5

输出tokens/百万

256

上下文长度

qwen3-asr-flash

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Qianfan-VL-8B

Baidu

输入tokens/百万

输出tokens/百万

上下文长度

Hunyuan-T1-20250822

Tencent

输入tokens/百万

输出tokens/百万

上下文长度

Hunyuan-T1-latest

Tencent

输入tokens/百万

输出tokens/百万

上下文长度

MCP

Nano Agent

Nano Agent是一个实验性的小型工程代理MCP服务器，支持多提供商LLM模型，用于测试和比较云端与本地LLM在性能、速度和成本方面的代理能力。项目包含多模型评估系统、嵌套代理架构和统一工具接口，支持OpenAI、Anthropic和Ollama等提供商。

python

6.2k

2.5分

Mcp

OpenFeature MCP服务器是一个本地工具，通过标准化协议连接AI编程助手与OpenFeature功能，提供SDK安装指导和功能标志评估能力，支持多种AI开发环境。

typescript

7.7k

2.5分

Mcp Property Valuation Server

为AI助手提供小区评级、小区评估和房产估值专业能力的MCP服务器，基于多维度指标提供权威房产数据服务。

javascript

5.6k

2.5分

Llm Experimentations

该项目通过ChatGPT测试LLM在信息检索、API集成（如IGN的APICARTO和GéoPlateforme服务）以及代码生成方面的能力，包括地理编码、邮政编码查询等功能，并探索AI在技术评估和开发辅助中的应用。

typescript

9.5k

2.0分

AWorld

AWorld是一个多智能体系统框架，旨在弥合理论MAS能力与实际应用之间的差距，提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景，采用客户端-服务器架构，集成丰富工具链，并包含性能评估与训练功能。

python

9.1k

2.0分

Xdebug Mcp

一个基于Xdebug DBGp协议的MCP服务器，为AI助手提供PHP调试能力，支持断点、变量检查、表达式评估等完整调试功能。

智启未来，您的人工智能解决方案智库

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图

AI资讯

编程智能体的新标准！MiniMax 发布 OctoCodingBench 基准测试

​GPT-5.2 性能首超人类基准：OpenAI 预警“大模型能力过剩”时代开启

​OpenAI 开年首单:收购高管教练 AI 平台 Convogo 核心团队

AI 科学研究新基准:FrontierScience 评估模型推理能力

AI产品

VibeOnly

TripleTen Career Aptitude Test

WebWalker

FullStack Bench

模型

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

qwen3-coder-plus

qwen3-vl-235b-a22b-thinking

wan2.5-i2v-preview

qwen3-omni-flash-realtime

Doubao-Seed-1.6

Kimi-K2

Doubao-1.5-pro-32k

Doubao-Seed-1.6-flash

qwen3-asr-flash

Qianfan-VL-8B

Hunyuan-T1-20250822

Hunyuan-T1-latest

Metatune Gpt20b R0

Leadscanr MessageClassifier Type

Ctsinov1

Simia Tau SFT Qwen3 8B

Simia Tau SFT Qwen2.5 7B

GLM 4.5 GGUF

DeepSeek R1 0528 Bf16

VisualPRM 8B V1_1

Llama 1B GRPO_Final

AnyRewardModel

Llama 3 8b Gpt 4o Ru1.0

Personality_LM

Agent FLAN 7b

WhiteRabbitNeo 33B V1.5

Gpt Sw3 6.7b V2

MCP

Nano Agent

Mcp

Mcp Property Valuation Server

Llm Experimentations

AWorld

Xdebug Mcp

GPT-5.2 性能首超人类基准：OpenAI 预警“大模型能力过剩”时代开启

OpenAI 开年首单:收购高管教练 AI 平台 Convogo 核心团队