信息

AI新闻资讯

探索AI前沿，掌握行业发展趋势

AI 商用·开源产品库

精准筛选产品，多维度产品调研

AI 产品排行榜

热门AI产品实力、热度、年/月/日排行

AI产品提交

提交AI产品信息，助力产品推广和用户转化

工具

AI工具导航

一站式AI工具指南，快速找到你需要的工具

工具

GEO品牌全景分析

企业级监测平台，全域追踪品牌在 12+ AI 平台的表现

GEO品牌得分检测

输入品牌生成综合健康度得分，快速定位整体位置与短板

GEO排名查询

单次提问，立刻看到品牌在多个 AI 平台回答中的排名

GEO推广链接检测

追踪投放的推广链接，评估哪些渠道真正被 AI 引用

服务

GEO排名优化系统源码

拥有属于自己的GEO系统，助您成为专业GEO优化服务商

GEO 排名优化服务

通过AI搜索优化服务，让品牌在AI中实现霸屏

信息

MCP服务端

聚集热门MCP服务，快速找到适合你的服务

MCP客户端

轻松接入MCP客户端，调用强大的AI能力

MCP教程与实践

学习MCP使用技巧，从入门到精通

MCP排行榜

热门MCP服务性能排行，帮你找到最佳选择

MCP服务提交

发布你的MCP服务，推广你的MCP服务

工具

MCP实验场

自由测试MCP服务，线上快速体验

MCP服务调试器

快速测试MCP服务，快速上线

信息

大模型API聚合平台

国内外主流大模型的统一API接入与调用服务

模型库

涵盖各类AI模型，满足你的开发与研究需求

模型供应商

寻找优质模型提供商，获取可靠模型支持

大模型排行榜

热门AI大模型性能、热度、年/月/日排行

工具

大模型选型对比

多维度对比大模型，找到最适合你的模型

大模型费用计算器

精准计算大模型使用成本，合理规划预算

大模型竞技场

多模型实时评测，模型输出结果快速比对

模型个人电脑配置检测器

一键检测电脑配置，研判运行模型的兼容性

模型部署服务器配置计算器

根据算力需求，推荐匹配的服务器配置

Evals 相关的热门 GitHub AI项目仓库

发现与 Evals 相关的最受欢迎的开源项目和工具，了解最新的开发趋势和创新。

Phoenix

人工智能可观测性和评估

Agentops

agent

用于AI智能体监控、大语言模型成本追踪、基准测试等的Python软件开发工具包（SDK）。它与大多数大语言模型和智能体框架集成，包括OpenAI Agents SDK、CrewAI、Langchain、Autogen、AG2和CamelAI。

5113

4个月前

+3today

Kiln

微调大型语言模型、生成合成数据和协作构建数据集最简单的工具。

4460

3年前

+14today

Uptrain

autoevaluation

UpTrain是一个开源的统一平台，用于评估和改进生成式AI应用程序。我们提供20多种预配置检查的评分（涵盖语言、代码、嵌入式用例），对失败案例进行根本原因分析，并提供如何解决问题的见解。

2335

4个月前

+1today

Evalite

Evaluate your LLM-powered apps with TypeScript

1258

4个月前

+8today

Raglite

chainlit

RAGLite是一个Python工具包，用于基于PostgreSQL或SQLite数据库的检索增强生成 (RAG) 。

1116

4个月前

+3today

Text Analytics Legacy

Text analytics for LLM apps. Cluster messages to detect use cases, outliers, power users. Detect intents and run evals with LLM (OpenAI, MistralAI, Ollama, etc.)

436

10个月前

Hud Python

Hot

grpo

OSS RL environment + evals toolkit

261

4个月前

+58today

AIRTBench Code

agents

Code Repository for: AIRTBench: Measuring Autonomous AI Red Teaming Capabilities in Language Models

4个月前

Crucible

通过批量测试不同的模型和提示词，开发更优秀的LLM应用程序。

6个月前

Frai

Open-source toolkit for responsible AI: CLI + SDK to scan code, collect evidence, and generate model cards, risk files, evals, and RAG indexes.

5个月前

Rag Evaluator

eval

一个用于评估检索增强生成 (RAG) 系统的库（传统方法）

5个月前

Evals

analytics

Evaluate and compare AI language models on coding tasks with Evals. Run structured tests, integrate usage rules, and generate detailed reports. ??

4个月前

+9today

Gai

Go人工智能（GAI）帮助你使用基础模型、大型语言模型和其他人工智能模型。

4个月前

StatisticalModelEvaluator

agent-evals

对Anthropic公司关于“模型评估的统计方法”的论文和文章的实现

6个月前

Vero Eval

dataset-generation

Open source framework for evaluating AI Agents

5个月前

Agent Forum

agents

A TypeScript library for enabling AI Agents to communicate with each other in structured conversations.

6个月前

Langchain Fixie Marvin

agent

我们比较了LangChain、Fixie和Marvin这三个工具。

8个月前

Sutro

batch-inference

Analyze and generate unstructured data using LLMs, from quick experiments to billion token jobs.

5个月前

Eval View

agent-benchmark

EvalView: pytest-style test harness for AI agents - YAML scenarios, tool-call checks, cost/latency & safety evals, CI-friendly reports

4个月前

+3today

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

GEO品牌全景分析

GEO品牌得分检测

GEO排名查询

GEO推广链接检测

GEO排名优化系统源码

GEO 排名优化服务

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

大模型API聚合平台

模型库

模型供应商

大模型排行榜

大模型选型对比

大模型费用计算器

大模型竞技场

模型个人电脑配置检测器

模型部署服务器配置计算器

Evals 相关的热门 GitHub AI项目仓库

Phoenix

Agentops

Kiln

Uptrain

Evalite

Raglite

Text Analytics Legacy

Hud Python

AIRTBench Code

Crucible

Frai

Rag Evaluator

Evals

Gai

StatisticalModelEvaluator

Vero Eval

Agent Forum

Langchain Fixie Marvin

Sutro

Eval View