AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航 MCP

Llm Eval 相关的热门 GitHub AI项目仓库

发现与 Llm Eval 相关的最受欢迎的开源项目和工具，了解最新的开发趋势和创新。

Phoenix

人工智能可观测性和评估

Giskard

开源人工智能和大型语言模型系统评估与测试

Uptrain

autoevaluation

UpTrain是一个开源的统一平台，用于评估和改进生成式AI应用程序。我们提供20多种预配置检查的评分（涵盖语言、代码、嵌入式用例），对失败案例进行根本原因分析，并提供如何解决问题的见解。

2258

1个月前

-1today

Athina Evals

evaluation

用于评估大型语言模型生成回复的 Python 软件开发工具包

278

1个月前

+1today

Fiddlecube Sdk

fine-tune-llms

生成用于测试检索增强生成（RAG）的理想问答对

126

3个月前

Just Eval

evaluation

一个基于GPT的简单评估工具，用于对大型语言模型进行多方面、可解释的评估。

2个月前

Parea Sdk Py

generative-ai

Parea AI（Y Combinator 2023夏季批）提供了一个Python SDK，用于实验、测试、评估和监控基于大型语言模型（LLM）的应用程序。

1个月前

Multinear

evaluation

开发可靠的AI应用程序

1个月前

Ragrank

evaluation

我们的免费大型语言模型（LLM）评估工具包可以帮助您评估LLM的准确性、上下文理解能力、语气表达等方面，从而了解您的LLM应用的优劣。

1个月前

Prompto

deep-learning

一个用于异步查询大型语言模型（LLM）端点的开源库

1个月前

+13today

Realign

Realign是一个用于人工智能应用的测试和仿真框架。

2个月前

-99today

Prediction Powered Ranking

llm-eval

2024 年神经信息处理系统大会 (NeurIPS) 论文：基于预测的大型语言模型排序代码

5个月前

Eval Llm Based Apps Jan2025

llm

为你的基于大型语言模型 (LLM) 的应用程序创建一个评估框架，并将其整合到你的测试套件中。同时，奠定监控的基础。

3个月前

Parea Sdk Ts

llm

Parea AI（Y Combinator 2023夏季批）提供了一个TypeScript软件开发工具包（SDK），用于实验、测试、评估和监控基于大型语言模型（LLM）的应用程序。

4个月前

Eva L

llm

大型语言模型评估框架

4个月前

Genkitx Promptfoo

Genkit 的社区插件，用于 Promptfoo

7个月前

ShinRakuda

japanese

Shin Rakuda是一个全面的框架，用于评估和基准测试日语大型语言模型，它为研究人员和开发者提供了一个灵活的工具包，用于评估不同数据集上大型语言模型的性能。

1个月前

Ruby Sdk

llm-eval

用于 Ruby 语言的提示工程、提示管理和提示评估工具。

8个月前

Go Sdk

Go语言的提示工程、提示管理和提示评估工具

2年前

-5today

Promptfoo Sample

evaluation

这个示例项目演示了如何使用Promptfoo，这是一个用于评估生成式AI模型输出的测试框架。

3个月前

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

Llm Eval 相关的热门 GitHub AI项目仓库

Phoenix

Giskard

Uptrain

Athina Evals

Fiddlecube Sdk

Just Eval

Parea Sdk Py

Multinear

Ragrank

Prompto

Realign

Prediction Powered Ranking

Eval Llm Based Apps Jan2025

Parea Sdk Ts

Eva L

Genkitx Promptfoo

ShinRakuda

Ruby Sdk

Go Sdk

Promptfoo Sample