Best 性能评估 AI Tools & Models - Premium 性能评估 News

AI News

我国首套大模型国家标准正式实施！性能、安全、服务能力全面规范，产业进入“有标可依”新阶段

我国首部《人工智能大模型系列国家标准》正式实施，从性能、安全、服务三大维度为通用大模型建立统一规范，填补了技术评估与合规的制度空白，推动产业从“野蛮生长”迈向科学规范的新阶段。

11.2k 11 minutes ago

智谱AI发布 GLM-4.7，新一代开源编码大模型性能跃升

12月22日，智谱华章发布并开源新一代大模型GLM-4.7。该模型在多项国际基准测试中表现突出，尤其在编码领域表现卓越，综合性能超越GPT-5.2，在权威编码评估平台Code Arena中位列开源与国产模型双榜首，重点面向编程场景。

20.4k 2 minutes ago

Paytm 与 Groq 合作，推动高性能 AI 模型发展

印度支付巨头Paytm与美国硬件公司Groq合作，将利用GroqCloud云端服务提升AI模型性能，优化交易处理、风险评估、欺诈检测和消费者互动。GroqCloud基于自主研发的语言处理单元，专注于AI推理，旨在增强Paytm平台的智能化水平。

6.5k 12-21

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

美团LongCat团队推出UNO-Bench基准测试，系统评估多模态模型能力。该基准覆盖44种任务类型和5种模态组合，包含1250个全模态样本（跨模态可解性98%）及2480个增强单模态样本，全面测试模型在单模态与全模态场景下的性能表现。

10.2k 12-22

AI Products

Selene API

Selene API 是一款用于评估 AI 应用性能的先进工具，提供精准的评分和反馈。

AI模型

10.7k

TestAI

自动化AI语音代理测试与性能分析平台，提供真实场景模拟与评估。

自动化工作流

9.9k

Procyon AI Computer Vision Benchmark

用于评估Windows PC或Apple Mac上AI推理引擎性能的基准测试工具。

开发与工具

9.3k

Procyon AI Image Generation Benchmark

用于衡量设备 AI 加速器推理性能的基准测试工具。

AI模型

10.2k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-vl-max

Alibaba

$1.6

Input tokens/M

Output tokens/M

128

Context Length

gpt-oss-20b

Openai

$0.4

Input tokens/M

Output tokens/M

128

Context Length

GPT-5 mini

Openai

$1.75

Input tokens/M

$14

Output tokens/M

400

Context Length

qwen3-coder-flash

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen-flash

Alibaba

$15

Input tokens/M

$15

Output tokens/M

Context Length

Pangu-NLP-N2-32K-5.0.1.1

Huawei

Input tokens/M

Output tokens/M

Context Length

GLM-4.5-Air

Chatglm

Input tokens/M

Output tokens/M

128

Context Length

Hunyuan-TurboS-20250716

Tencent

$0.8

Input tokens/M

Output tokens/M

Context Length

Qwen3-235B-A22B

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qwen3-4B

Alibaba

$0.3

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E4B

Google

Input tokens/M

Output tokens/M

Context Length

MCP

MCPBench

MCPBench是一个用于评估MCP服务器性能的框架，支持Web搜索和数据库查询两种任务的评估，兼容本地和远程服务器，主要评估准确性、延迟和令牌消耗。

python

9.3k

3.0points

Nano Agent

Nano Agent是一个实验性的小型工程代理MCP服务器，支持多提供商LLM模型，用于测试和比较云端与本地LLM在性能、速度和成本方面的代理能力。项目包含多模型评估系统、嵌套代理架构和统一工具接口，支持OpenAI、Anthropic和Ollama等提供商。

python

7.2k

2.5points

Npm Sentinel Mcp

一个基于AI的NPM包分析MCP服务器，提供实时安全扫描、依赖分析、性能评估等功能，集成Claude和Anthropic AI技术，优化npm生态管理。

typescript

9.5k

2.5points

Mandoline Mcp Server

Mandoline MCP服务器是一个AI助手评估框架，通过Model Context Protocol为Claude和Cursor等AI助手提供自定义评估指标创建、批量评分和性能分析工具，帮助AI持续改进自身表现。

typescript

2.5points

PhialsBasement_Pagespeed MCP Server

PageSpeed MCP服务器是一个连接AI助手与谷歌PageSpeed Insights API的桥梁，为AI模型提供网站性能分析功能，包括核心性能指标、SEO评估、可访问性审计和资源优化建议。

javascript

6.5k

2.5points

Npm Sentinel Mcp

NPM Sentinel MCP是一个基于AI的NPM包分析服务器，提供实时安全扫描、依赖分析、性能评估等功能，支持与Claude和Anthropic AI集成，优化NPM生态管理。

typescript

5.9k

2.5points

Ollama MCP Server

Ollama-MCP-server是一个连接本地Ollama LLM实例与MCP兼容应用的协议服务器，提供任务分解、结果评估、模型管理等功能，支持标准化通信和性能优化。

python

9.6k

2.5points

Lighthouse Mcp Server

Lighthouse MCP Server是一个基于Google Lighthouse的模型上下文协议服务器，提供全面的网站性能审计和分析功能，包括性能评分、可访问性检查、SEO分析和安全评估。

typescript

7.4k

2.5points

Enemyrr_mcp Server Pagespeed

一个基于Model Context Protocol的服务，提供Google PageSpeed Insights网页性能分析功能，使AI模型能通过标准化接口评估网页加载表现。

typescript

8.9k

2.0points

Nahmanmate_postgresql Mcp Server

PostgreSQL MCP服务器提供数据库分析、配置指导和问题调试功能，支持性能优化、安全评估及常见问题排查。

typescript

5.2k

2.0points

NewAITees_ollama MCP Server

Ollama-MCP-server是一个连接本地Ollama大语言模型的中间件服务器，通过Model Context Protocol协议提供任务分解、结果评估和模型管理功能，支持标准化通信和性能优化。

python

12.9k

2.0points

AWorld

AWorld是一个多智能体系统框架，旨在弥合理论MAS能力与实际应用之间的差距，提供从单智能体到多智能体协作/竞争的全套解决方案。项目支持浏览器/手机操作、GAIA基准测试等场景，采用客户端-服务器架构，集成丰富工具链，并包含性能评估与训练功能。

python

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

我国首套大模型国家标准正式实施！性能、安全、服务能力全面规范，产业进入“有标可依”新阶段

智谱AI发布 GLM-4.7，新一代开源编码大模型性能跃升

Paytm 与 Groq 合作，推动高性能 AI 模型发展

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

AI Products

Selene API

TestAI

Procyon AI Computer Vision Benchmark

Procyon AI Image Generation Benchmark

Models

GPT-4.1 mini

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

qwen3-coder-plus

qwen3-vl-plus

Qianfan-Lightning

qwen-image-edit

qwen-vl-max

gpt-oss-20b

GPT-5 mini

qwen3-coder-flash

qwen-flash

Pangu-NLP-N2-32K-5.0.1.1

GLM-4.5-Air

Hunyuan-TurboS-20250716

Qwen3-235B-A22B

Qwen3-4B

Gemma 3n E2B

Gemma 3n E4B

Metatune Gpt20b R0

Qwen3 4B I 1509

Simia Officebench SFT Qwen2.5 7B

DiffusionLM

Sal Base

DS R1 Distill Q2.5 14B Harmony_V0.1

Vit_Liveness_detection_v1.0

Whisper Small Uyghur Common Voice

Whisper Large V3 Pt Cv19 Fleurs

Mistroll 7B V2.2

Mamba Gpt 7b V2

Alpaca 7B V1

PickScore_v1

Layoutlmv3 Finetuned Cord_500

Ascend

Microtransquest En_lv Pharmaceutical Smt

Fnet Base Finetuned Cola

Frugalscore_tiny_bert Base_bert Score

Roberta Swedish Scandi

MCP

MCPBench

Nano Agent

Npm Sentinel Mcp

Mandoline Mcp Server

PhialsBasement_Pagespeed MCP Server

Npm Sentinel Mcp

Ollama MCP Server

Lighthouse Mcp Server

Enemyrr_mcp Server Pagespeed

Nahmanmate_postgresql Mcp Server

NewAITees_ollama MCP Server

AWorld