Best 能力评估 AI Tools & Models - Premium 能力评估 News

AI News

AI 科学研究新基准:FrontierScience 评估模型推理能力

AI模型在科学推理能力评估方面取得重要进展，已在国际数学和信息学奥林匹克竞赛中表现优异。随着GPT-5等先进模型的发展，AI正有效加速真实科学研究进程，展现出强大的假设提出、测试修正及跨领域综合能力。

10.4k 16 hours ago

医疗AI新突破！南洋理工发布首个电子病历处理评测标准

南洋理工大学推出首个全面评测大型语言模型处理电子病历能力的基准EHRStruct，涵盖11项核心任务、2200个样本，旨在评估模型在医疗数据理解、信息提取等方面的表现，推动医疗AI发展。

9.3k yesterday

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

谷歌FACTS团队与Kaggle联合发布FACTS基准测试套件，旨在评估生成式AI模型在企业任务中的事实性和真实性。该框架弥补了现有基准只关注问题解决能力、忽略输出信息与真实世界数据一致性的缺陷，尤其针对图像或图表中的信息嵌入，对法律、金融等关键领域尤为重要。

10.3k 7 hours ago

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

谷歌 DeepMind 推出 Evo-Memory 基准与 ReMem 框架，推动 LLM 智能体的经验重用

Evo-Memory是新型智能体框架，通过流式基准评估智能体在连续任务中积累和重用策略的能力，强调动态记忆演变，突破静态对话记录限制。

12.6k yesterday

谷歌 DeepMind 推出 Evo-Memory 基准与 ReMem 框架，推动 LLM 智能体的经验重用

AI Products

VibeOnly

测试你的vibe编码技能，评估AI使用能力，用于招聘AI人才

求职

7.7k

TripleTen Career Aptitude Test

免费职业能力倾向测试，基于科学评估方法提供IT职业路径建议。

求职

WebWalker

WebWalker是一个用于评估大型语言模型在网页遍历能力上的基准测试框架。

AI模型

9.6k

FullStack Bench

评估大型语言模型作为全栈开发者的能力

开发与工具

10k

Models

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

Doubao-Seed-1.6

Bytedance

$0.8

Input tokens/M

Output tokens/M

256

Context Length

Kimi-K2

Moonshot

Input tokens/M

$16

Output tokens/M

256

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

Doubao-Seed-1.6-flash

Bytedance

$0.15

Input tokens/M

$1.5

Output tokens/M

256

Context Length

qwen3-asr-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qianfan-VL-8B

Baidu

Input tokens/M

Output tokens/M

Context Length

Hunyuan-T1-20250822

Tencent

Input tokens/M

Output tokens/M

Context Length

Hunyuan-T1-latest

Tencent

Input tokens/M

Output tokens/M

Context Length

MCP

Nano Agent

Nano Agent是一个实验性的小型工程代理MCP服务器，支持多提供商LLM模型，用于测试和比较云端与本地LLM在性能、速度和成本方面的代理能力。项目包含多模型评估系统、嵌套代理架构和统一工具接口，支持OpenAI、Anthropic和Ollama等提供商。

python

6.2k

2.5points

Mcp Property Valuation Server

为AI助手提供小区评级、小区评估和房产估值专业能力的MCP服务器，基于多维度指标提供权威房产数据服务。

javascript

5.5k

2.5points

Llm Experimentations

该项目通过ChatGPT测试LLM在信息检索、API集成（如IGN的APICARTO和GéoPlateforme服务）以及代码生成方面的能力，包括地理编码、邮政编码查询等功能，并探索AI在技术评估和开发辅助中的应用。

typescript

9.3k

2.0points

AWorld

AWorld是一个多智能体系统框架，旨在弥合理论MAS能力与实际应用之间的差距，提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景，采用客户端-服务器架构，集成丰富工具链，并包含性能评估与训练功能。

python

10k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

AI 科学研究新基准:FrontierScience 评估模型推理能力

医疗AI新突破！南洋理工发布首个电子病历处理评测标准

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

​谷歌 DeepMind 推出 Evo-Memory 基准与 ReMem 框架，推动 LLM 智能体的经验重用

AI Products

VibeOnly

TripleTen Career Aptitude Test

WebWalker

FullStack Bench

Models

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

qwen3-coder-plus

qwen3-vl-235b-a22b-thinking

wan2.5-i2v-preview

qwen3-omni-flash-realtime

Doubao-Seed-1.6

Kimi-K2

Doubao-1.5-pro-32k

Doubao-Seed-1.6-flash

qwen3-asr-flash

Qianfan-VL-8B

Hunyuan-T1-20250822

Hunyuan-T1-latest

Metatune Gpt20b R0

Leadscanr MessageClassifier Type

Ctsinov1

Simia Tau SFT Qwen3 8B

Simia Tau SFT Qwen2.5 7B

GLM 4.5 GGUF

DeepSeek R1 0528 Bf16

VisualPRM 8B V1_1

Llama 1B GRPO_Final

AnyRewardModel

Llama 3 8b Gpt 4o Ru1.0

Personality_LM

Agent FLAN 7b

WhiteRabbitNeo 33B V1.5

Gpt Sw3 6.7b V2

MCP

Nano Agent

Mcp Property Valuation Server

Llm Experimentations

AWorld

谷歌 DeepMind 推出 Evo-Memory 基准与 ReMem 框架，推动 LLM 智能体的经验重用