Best AI模型评估 AI Tools & Models - Premium AI模型评估 News

AI News

DeepMind 开设 AI “线下桌游局”:Gemini3家族横扫扑克与狼人杀排行榜

谷歌DeepMind联合Kaggle升级Game Arena平台，新增“狼人杀”和“扑克”两款游戏，推动AI测试从逻辑运算转向社交推理与不确定决策，以更全面评估模型性能。

11.3k 14 hours ago

DeepMind 开设 AI “线下桌游局”:Gemini3家族横扫扑克与狼人杀排行榜

年薪55.5万美元！OpenAI 急招安全防范负责人，挑战AI风险！

OpenAI高薪招聘安全负责人，年薪约389万元人民币，负责评估AI模型风险。公司面临挑战，ChatGPT被指影响用户心理健康，涉及多起诉讼。

9.3k 4 days ago

年薪55.5万美元！OpenAI 急招安全防范负责人，挑战AI风险！

讯飞星火大模型首获国家安全标准认证，AI 安全再上新台阶！

科大讯飞星火大模型平台通过国家安全标准试点验证，获首批《人工智能安全国家标准符合性自评估证书》。认证依据我国首个生成式AI专项安全技术标准GB/T45654-2025，涵盖训练数据安全等要求，标志着讯飞在AI安全领域取得重要进展。

9.9k 20 hours ago

讯飞星火大模型首获国家安全标准认证，AI 安全再上新台阶！

AI患上“合成精神病”？研究揭示Gemini、Grok竟自述“童年创伤”，ChatGPT焦虑到失眠

AI被置于心理咨询角色，竟自述童年创伤，展现抑郁、焦虑等情绪。卢森堡大学研究揭示，主流AI模型在心理评估中表现出类人情感，引发对AI“心理状态”的伦理思考。

18.2k 5 hours ago

AI患上“合成精神病”？研究揭示Gemini、Grok竟自述“童年创伤”，ChatGPT焦虑到失眠

AI Products

SWE-bench Verified

SWE-bench Verified

AI模型软件工程能力评估工具

DIG-In

DIG-In

评估图像生成模型在不同地理区域的质量、多样性和一致性。

Scale Leaderboard

Scale Leaderboard

AI模型性能评估平台

ImagenHub

ImagenHub

ImagenHub:标准化条件图像生成模型的推理和评估

Models

GPT-4.1 mini

Openai

GPT-4.1 mini

$2.8

Input tokens/M

$11.2

Output tokens/M

1k

Context Length

Gemini 2.0 Flash-Lite

Google

Gemini 2.0 Flash-Lite

$0.49

Input tokens/M

$2.1

Output tokens/M

1k

Context Length

Grok 4 Fast

Xai

Grok 4 Fast

$1.4

Input tokens/M

$3.5

Output tokens/M

2k

Context Length

o3-mini

Openai

o3-mini

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

GPT-5 Codex

-

Input tokens/M

-

Output tokens/M

-

Context Length

Claude 3 Opus

Anthropic

Claude 3 Opus

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

Gemini 2.0 Flash

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

Claude Haiku 4.5

Anthropic

Claude Haiku 4.5

$7

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

Gemini 2.5 Flash

$2.1

Input tokens/M

$17.5

Output tokens/M

1k

Context Length

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

Claude 3 Sonnet

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

Gemini 2.5 Flash-Lite

$0.7

Input tokens/M

$2.8

Output tokens/M

1k

Context Length

qwen-image-plus

Alibaba

qwen-image-plus

-

Input tokens/M

-

Output tokens/M

-

Context Length

qwen3-coder-plus

Alibaba

qwen3-coder-plus

$4

Input tokens/M

$16

Output tokens/M

1k

Context Length

qwen3-vl-plus

Alibaba

qwen3-vl-plus

$1

Input tokens/M

$10

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Qianfan-Lightning

-

Input tokens/M

-

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

wan2.5-i2i-preview

-

Input tokens/M

-

Output tokens/M

-

Context Length

qwen3-max

Alibaba

qwen3-max

$6

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

qwen3-vl-235b-a22b-thinking

$2

Input tokens/M

$20

Output tokens/M

-

Context Length

qwen-image-edit

Alibaba

qwen-image-edit

-

Input tokens/M

-

Output tokens/M

-

Context Length

MCP

NMAP Scanner

NMAP Scanner

MCP NMAP服务器是一个为AI助手提供网络扫描功能的协议服务器，通过标准化接口让AI模型能够使用NMAP进行网络分析和安全评估。

PhialsBasement_Pagespeed-MCP-Server

PhialsBasement_Pagespeed MCP Server

PageSpeed MCP服务器是一个连接AI助手与谷歌PageSpeed Insights API的桥梁，为AI模型提供网站性能分析功能，包括核心性能指标、SEO评估、可访问性审计和资源优化建议。

mcp-code-indexer

Mcp Code Indexer

MCP代码索引器是一个专为AI大语言模型设计的智能代码检索工具，通过语义理解和向量化索引提升代码处理效率和准确性，支持代码分析、质量评估和依赖管理等功能。

lisply-mcp

Lisply Mcp

该项目是一个Model Context Protocol (MCP)适配器，用于连接大型语言模型(LLM)与Lisp开发环境，支持通过轻量级Lisply协议进行交互。主要功能包括Lisp代码评估、HTTP请求和调试支持，适用于AI辅助符号编程、CAD设计自动化等场景。

youtube-mcp-server

Youtube Mcp Server

YouTube MCP服务器是一个通过YouTube Data API v3提供实时YouTube数据访问的综合模型上下文协议服务器，支持14种功能，包括视频详情获取、频道分析、内容评估和字幕提取等，适用于AI助手集成。

enemyrr_mcp-server-pagespeed

Enemyrr_mcp Server Pagespeed

一个基于Model Context Protocol的服务，提供Google PageSpeed Insights网页性能分析功能，使AI模型能通过标准化接口评估网页加载表现。

wiki-mcp-server

Wiki Mcp Server

一个基于AI模型的维基百科文章搜索与分析服务，提供文章搜索、评估和分析功能，支持多种AI模型，并通过SSE流式传输结果。

mcphubs

Mcphubs

MCPHubs是一个基于Next.js构建的网站，用于展示与Anthropic的Model Context Protocol (MCP)相关的开源项目。它通过GitHub API获取项目信息，并使用Google Gemini Pro模型进行AI分析，评估项目与MCP的相关性，提供项目列表、详情展示和README渲染功能。

mcp-py-prompt-cleaner

Mcp Py Prompt Cleaner

这是一个基于模型上下文协议（MCP）的提示词优化服务器，使用AI增强和清理原始提示词，使其更清晰、可操作和有效。支持本地和云端LLM，提供质量评估和重试策略。

AIBase

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

Business Cooperation Site Map