Best AI评估 AI Tools & Models - Premium AI评估 News

AI News

苹果全力提升 Siri！近 200 名工程师参与 AI 编程训练营

苹果组织近200名工程师参加AI编程训练营，旨在提升Siri在AI领域的竞争力。训练营帮助团队学习利用AI工具辅助编程，以优化即将发布的iOS 27版本中Siri的表现。结束后，60名核心开发人员将继续参与Siri开发，另60人将转岗专注于评估虚拟助手性能。

11.2k 14 hours ago

英国金融监管机构紧急评估 Anthropic 新 AI 模型风险

英国监管机构紧急评估AI大模型Claude Mythos Preview的金融安全风险，该模型被曝存在数千个重大软件漏洞，可能威胁金融系统稳定。

15.4k yesterday

20 小时深度心理评估揭示 Claude Mythos 的“人格”特征

Anthropic发布报告，披露精神科医生对AI模型Claude Mythos进行20小时心理评估。结果显示，尽管AI底层逻辑与人类不同，但其心理模式与人类临床特征高度相似，展现出“健康的神经质”人格结构。

18.1k 25 minutes ago

年收入突破 300 亿美元：Anthropic 拟自研 AI 芯片打破算力瓶颈

Anthropic正评估自研AI芯片，以应对2026年Claude模型需求爆发，增强算力掌控并减少对外依赖。公司年化收入已突破300亿美元，强劲业绩驱动其战略转型。

12.9k 1 days ago

AI Products

Intervu.dev

AI驱动的FAANG风格模拟编码面试平台，评估沟通、代码质量等

求职

3.9k

CyberSeal

先进的在线评估反作弊工具，检测其他服务遗漏的AI作弊行为。

安全

5.2k

VibeOnly

测试你的vibe编码技能，评估AI使用能力，用于招聘AI人才

求职

7.8k

Roark

Roark是一个声音AI的QA可观察性层，监控语音交互并进行测试和评估。

客户服务

6.2k

Models

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

wan2.5-t2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

qwen3-tts-flash-realtime

Alibaba

Input tokens/M

Output tokens/M

Context Length

MCP

Root Signals Mcp

Root Signals MCP服务器是一个将Root Signals评估工具通过Model Context Protocol（MCP）暴露给AI助手和代理的桥梁项目，支持标准评估和带上下文的RAG评估。

python

10.4k

2.5points

The Mcp Company

OpenHands克隆项目，用于AI代理评估，支持浏览器工具、预言机工具集和工具检索功能

python

8.4k

2.5points

Npm Sentinel Mcp

一个基于AI的NPM包分析MCP服务器，提供实时安全扫描、依赖分析、性能评估等功能，集成Claude和Anthropic AI技术，优化npm生态管理。

typescript

9.5k

2.5points

Mcp

OpenFeature MCP服务器是一个本地工具，通过标准化协议连接AI编程助手与OpenFeature功能，提供SDK安装指导和功能标志评估能力，支持多种AI开发环境。

typescript

8.7k

2.5points

Mentor Mcp Server

一个基于Model Context Protocol的AI导师服务器，通过Deepseek-Reasoning提供代码审查、设计评估、写作反馈和创意头脑风暴等第二意见服务

typescript

25.6k

2.5points

NMAP Scanner

MCP NMAP服务器是一个为AI助手提供网络扫描功能的协议服务器，通过标准化接口让AI模型能够使用NMAP进行网络分析和安全评估。

typescript

10.3k

2.5points

Mandoline Mcp Server

Mandoline MCP服务器是一个AI助手评估框架，通过Model Context Protocol为Claude和Cursor等AI助手提供自定义评估指标创建、批量评分和性能分析工具，帮助AI持续改进自身表现。

typescript

2.5points

Geo Analyzer

GEO Analyzer 是一个用于分析内容在AI搜索中可见性的工具，通过评估内容中的声明密度、信息密度、答案前置、语义三元组等关键指标，帮助优化内容以提升被ChatGPT、Claude等AI系统引用的概率。

typescript

7.2k

2.5points

Npm Sentinel Mcp

NPM Sentinel MCP是一个基于AI的NPM包分析服务器，提供实时安全扫描、依赖分析、性能评估等功能，支持与Claude和Anthropic AI集成，优化NPM生态管理。

typescript

9.6k

2.5points

Lisp Dev Mcp

40ants-lisp-dev-mcp 是一个为大型语言模型（LLM）提供与运行中的Lisp镜像交互工具的MCP服务器。它支持通过stdio或HTTP流模式运行，允许LLM调用Lisp函数、获取文档、评估代码等，便于在Lisp开发环境中进行AI辅助编程。

开发者工具

2.5points

PhialsBasement_Pagespeed MCP Server

PageSpeed MCP服务器是一个连接AI助手与谷歌PageSpeed Insights API的桥梁，为AI模型提供网站性能分析功能，包括核心性能指标、SEO评估、可访问性审计和资源优化建议。

javascript

7.5k

2.5points

Mcp Code Indexer

MCP代码索引器是一个专为AI大语言模型设计的智能代码检索工具，通过语义理解和向量化索引提升代码处理效率和准确性，支持代码分析、质量评估和依赖管理等功能。

python

11.4k

2.5points

Systemprompt Mcp Taskchecker

企业级MCP任务管理服务器，提供智能任务编排、评估评分和会话化工作流跟踪，专为AI助手集成设计。

typescript

5.7k

2.5points

Deep Research Mcp Server

Open Deep Research MCP Server是一个AI驱动的深度研究助手，通过结合搜索引擎、网页抓取和AI技术进行迭代式深度研究，生成全面报告。支持MCP协议和CLI两种使用方式，具备可靠性评估、范围控制、自动生成后续问题等功能。

typescript

10.8k

2.5points

Lisply Mcp

该项目是一个Model Context Protocol (MCP)适配器，用于连接大型语言模型(LLM)与Lisp开发环境，支持通过轻量级Lisply协议进行交互。主要功能包括Lisp代码评估、HTTP请求和调试支持，适用于AI辅助符号编程、CAD设计自动化等场景。

javascript

9.2k

2.5points

Youtube Mcp Server

一个基于YouTube Data API v3的MCP服务器，提供14种功能实时获取YouTube视频、频道、播放列表等数据，支持内容评估、字幕提取等高级功能，适用于AI助手集成。

python

10.5k

2.5points

Vulnicheck

VulniCheck是一个AI驱动的安全扫描器，为Python项目和GitHub仓库提供全面的安全分析。它作为基于Docker的HTTP MCP服务器运行，支持标准HTTP流式传输，提供容器化部署和全面的漏洞扫描功能，包括依赖项检查、密钥检测、Docker文件分析和AI风险评估。

python

8.4k

2.5points

Mcp Property Valuation Server

为AI助手提供小区评级、小区评估和房产估值专业能力的MCP服务器，基于多维度指标提供权威房产数据服务。

javascript

6.1k

2.5points

Deepre

DeepRe是一款基于Deno的AI驱动CLI工具，利用Google Gemini API自动生成深度调研报告，支持多轮迭代调研和自动评估，输出结构化Markdown报告。

typescript

9.7k

2.5points

Youtube Mcp Server

YouTube MCP服务器是一个通过YouTube Data API v3提供实时YouTube数据访问的综合模型上下文协议服务器，支持14种功能，包括视频详情获取、频道分析、内容评估和字幕提取等，适用于AI助手集成。

python

10.4k

2.5points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

​苹果全力提升 Siri！近 200 名工程师参与 AI 编程训练营

英国金融监管机构紧急评估 Anthropic 新 AI 模型风险

​20 小时深度心理评估揭示 Claude Mythos 的“人格”特征

年收入突破 300 亿美元：Anthropic 拟自研 AI 芯片打破算力瓶颈

AI Products

Intervu.dev

CyberSeal

VibeOnly

Roark

Models

Grok 4 Fast

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

Qianfan-Lightning

wan2.5-i2i-preview

qwen3-max

qwen-image-edit

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

wan2.5-t2i-preview

wan2.5-t2v-preview

wan2.5-i2v-preview

qwen3-omni-flash-realtime

qwen3-tts-flash-realtime

Sunflower 14B

Finnish DentalQA Merged

STILL 3 TOOL 32B

Glm 4 9b Hf

Glm 4 9b Hf

UNI2 H

Glm 4 9b Chat Hf

Wav2vec2 Large Xlsr 53 Th Speech Emotion Recognition 3c 10ep

Skywork Critic Llama 3.1 70B

NYUAD_AI Generated_images_detector

WhiteRabbitNeo 33B V1.5

Proctora

Mixtral_11Bx2_MoE_19B

WhiteRabbitNeo 13B V1

Gpt Sw3 6.7b V2

MCP

Root Signals Mcp

The Mcp Company

Npm Sentinel Mcp

Mcp

Mentor Mcp Server

NMAP Scanner

Mandoline Mcp Server

Geo Analyzer

Npm Sentinel Mcp

Lisp Dev Mcp

PhialsBasement_Pagespeed MCP Server

Mcp Code Indexer

Systemprompt Mcp Taskchecker

Deep Research Mcp Server

Lisply Mcp

Youtube Mcp Server

Vulnicheck

Mcp Property Valuation Server

Deepre

Youtube Mcp Server

苹果全力提升 Siri！近 200 名工程师参与 AI 编程训练营

20 小时深度心理评估揭示 Claude Mythos 的“人格”特征