苹果组织近200名工程师参加AI编程训练营,旨在提升Siri在AI领域的竞争力。训练营帮助团队学习利用AI工具辅助编程,以优化即将发布的iOS 27版本中Siri的表现。结束后,60名核心开发人员将继续参与Siri开发,另60人将转岗专注于评估虚拟助手性能。
英国监管机构紧急评估AI大模型Claude Mythos Preview的金融安全风险,该模型被曝存在数千个重大软件漏洞,可能威胁金融系统稳定。
Anthropic发布报告,披露精神科医生对AI模型Claude Mythos进行20小时心理评估。结果显示,尽管AI底层逻辑与人类不同,但其心理模式与人类临床特征高度相似,展现出“健康的神经质”人格结构。
Anthropic正评估自研AI芯片,以应对2026年Claude模型需求爆发,增强算力掌控并减少对外依赖。公司年化收入已突破300亿美元,强劲业绩驱动其战略转型。
AI驱动的FAANG风格模拟编码面试平台,评估沟通、代码质量等
先进的在线评估反作弊工具,检测其他服务遗漏的AI作弊行为。
测试你的vibe编码技能,评估AI使用能力,用于招聘AI人才
Roark是一个声音AI的QA可观察性层,监控语音交互并进行测试和评估。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
Sunbird
Sunflower-14B是由Sunbird AI开发的多语言大语言模型,专门针对乌干达语言设计。该模型基于Qwen 3-14B架构构建,支持31种乌干达语言以及英语的翻译和文本生成任务,在多项评估中表现出色。
ducklingcodehouse
这是一个专注于芬兰语牙科医学的对话式AI助手,经过LoRA微调的大语言模型,能够针对牙科咨询问题生成结构化的临床回复,分为背景、评估和建议三个部分。
RUC-AIBOX
STILL-3-TOOL-32B是一个通过Python代码辅助推理过程的大语言模型,在AIME 2024评估中达到81.70%准确率。
zai-org
GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,支持多语言和多种高级特性,包括网页浏览、代码执行、自定义工具调用和长文本推理等功能。
THUDM
GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,具备多语言支持等先进特性。
MahmoodLab
UNI 2是由哈佛大学/布莱根妇女医院Mahmood Lab开发的病理AI视觉主干网络,基于自监督学习在组织病理学图像上预训练,支持多任务评估。
GLM-4-9B-Chat是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,在语义、数学、推理、代码和知识等数据集评估中表现出色,支持多轮对话、网页浏览、代码执行等先进特性,还支持多语言及长上下文推理。
Paranchai
基于 airesearch/wav2vec2-large-xlsr-53-th 微调的语音情感识别模型,在评估集上达到85.79%准确率
Skywork
天工评判系列模型由天工AI对齐团队开发,包含70B和8B两款先进的评判模型,擅长进行成对偏好评估,能够对输入的文本对进行细致比较,判断其相对质量或适用性。
NYUAD-ComNets
该模型是一个用于检测AI生成图像的分类器,在评估集上取得了97.36%的准确率。
WhiteRabbitNeo
WhiteRabbitNeo是专注于网络安全的AI模型系列,33B版本展示其在攻防安全领域的能力并评估社会影响
Karko
Proctora是基于混合专家架构(MoE)的模型,结合了角色扮演和事实性回答的专家模块,支持32K上下文长度,在AI-RPG评估中表现优异。
cloudyu
Mixtral MOE 2x10.7B是一款基于混合专家架构的大语言模型,结合了Sakura-SOLAR-Instruct和CarbonVillain两个基础模型的优势。该模型在文本生成任务上表现出色,在多个公开数据集上进行了评估,包括AI2推理挑战、HellaSwag、MMLU等基准测试。
WhiteRabbitNeo是专注于网络安全的AI模型系列,可用于攻防测试和评估
AI-Sweden-Models
GPT-SW3是由AI Sweden与合作伙伴开发的多语言大语言模型,支持5种北欧语言和4种编程语言,专注于北欧语言处理能力的研究与评估。
Root Signals MCP服务器是一个将Root Signals评估工具通过Model Context Protocol(MCP)暴露给AI助手和代理的桥梁项目,支持标准评估和带上下文的RAG评估。
OpenHands克隆项目,用于AI代理评估,支持浏览器工具、预言机工具集和工具检索功能
一个基于AI的NPM包分析MCP服务器,提供实时安全扫描、依赖分析、性能评估等功能,集成Claude和Anthropic AI技术,优化npm生态管理。
OpenFeature MCP服务器是一个本地工具,通过标准化协议连接AI编程助手与OpenFeature功能,提供SDK安装指导和功能标志评估能力,支持多种AI开发环境。
一个基于Model Context Protocol的AI导师服务器,通过Deepseek-Reasoning提供代码审查、设计评估、写作反馈和创意头脑风暴等第二意见服务
MCP NMAP服务器是一个为AI助手提供网络扫描功能的协议服务器,通过标准化接口让AI模型能够使用NMAP进行网络分析和安全评估。
Mandoline MCP服务器是一个AI助手评估框架,通过Model Context Protocol为Claude和Cursor等AI助手提供自定义评估指标创建、批量评分和性能分析工具,帮助AI持续改进自身表现。
GEO Analyzer 是一个用于分析内容在AI搜索中可见性的工具,通过评估内容中的声明密度、信息密度、答案前置、语义三元组等关键指标,帮助优化内容以提升被ChatGPT、Claude等AI系统引用的概率。
NPM Sentinel MCP是一个基于AI的NPM包分析服务器,提供实时安全扫描、依赖分析、性能评估等功能,支持与Claude和Anthropic AI集成,优化NPM生态管理。
40ants-lisp-dev-mcp 是一个为大型语言模型(LLM)提供与运行中的Lisp镜像交互工具的MCP服务器。它支持通过stdio或HTTP流模式运行,允许LLM调用Lisp函数、获取文档、评估代码等,便于在Lisp开发环境中进行AI辅助编程。
PageSpeed MCP服务器是一个连接AI助手与谷歌PageSpeed Insights API的桥梁,为AI模型提供网站性能分析功能,包括核心性能指标、SEO评估、可访问性审计和资源优化建议。
MCP代码索引器是一个专为AI大语言模型设计的智能代码检索工具,通过语义理解和向量化索引提升代码处理效率和准确性,支持代码分析、质量评估和依赖管理等功能。
企业级MCP任务管理服务器,提供智能任务编排、评估评分和会话化工作流跟踪,专为AI助手集成设计。
Open Deep Research MCP Server是一个AI驱动的深度研究助手,通过结合搜索引擎、网页抓取和AI技术进行迭代式深度研究,生成全面报告。支持MCP协议和CLI两种使用方式,具备可靠性评估、范围控制、自动生成后续问题等功能。
该项目是一个Model Context Protocol (MCP)适配器,用于连接大型语言模型(LLM)与Lisp开发环境,支持通过轻量级Lisply协议进行交互。主要功能包括Lisp代码评估、HTTP请求和调试支持,适用于AI辅助符号编程、CAD设计自动化等场景。
一个基于YouTube Data API v3的MCP服务器,提供14种功能实时获取YouTube视频、频道、播放列表等数据,支持内容评估、字幕提取等高级功能,适用于AI助手集成。
VulniCheck是一个AI驱动的安全扫描器,为Python项目和GitHub仓库提供全面的安全分析。它作为基于Docker的HTTP MCP服务器运行,支持标准HTTP流式传输,提供容器化部署和全面的漏洞扫描功能,包括依赖项检查、密钥检测、Docker文件分析和AI风险评估。
为AI助手提供小区评级、小区评估和房产估值专业能力的MCP服务器,基于多维度指标提供权威房产数据服务。
DeepRe是一款基于Deno的AI驱动CLI工具,利用Google Gemini API自动生成深度调研报告,支持多轮迭代调研和自动评估,输出结构化Markdown报告。
YouTube MCP服务器是一个通过YouTube Data API v3提供实时YouTube数据访问的综合模型上下文协议服务器,支持14种功能,包括视频详情获取、频道分析、内容评估和字幕提取等,适用于AI助手集成。