不错过全球AI革新的每一个时刻
每天三分钟关注AI行业趋势
AI行业大事记
列出所有AI硬件产品。
AI变现案例分享
AI图片制作变现案例分享
AI视频制作变现案例分享
AI音频制作变现案例分享
AI内容写作变现案例分享
免费分享最新AI教程内容
展示AI网站的总访问量排名
追踪AI网站访问量增长最快产品
关注访问量下降明显的AI网站
展示AI网站的周访问量排名
美国用户最喜欢的AI网站
中国用户最喜欢的AI网站
印度用户最喜欢的AI网站
巴西用户最喜欢的AI网站
AI图片生成网站总访问量榜单
AI个人助理网站总访问量榜单
AI角色生成网站总访问量榜单
AI视频生成网站总访问量榜单
热门AI项目总Start榜单
热门AI项目增速榜
热门AI开发者排名
热门AI组织排名榜单
热门deepseek开源项目
热门TTS开源项目
热门LLM开源项目
热门ChatGPT开源项目
github热门AI开源项目总览
发现与 Llm Eval 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
人工智能可观测性和评估
开源人工智能和大型语言模型系统评估与测试
UpTrain是一个开源的统一平台,用于评估和改进生成式AI应用程序。我们提供20多种预配置检查的评分(涵盖语言、代码、嵌入式用例),对失败案例进行根本原因分析,并提供如何解决问题的见解。
用于评估大型语言模型生成回复的 Python 软件开发工具包
生成用于测试检索增强生成(RAG)的理想问答对
一个基于GPT的简单评估工具,用于对大型语言模型进行多方面、可解释的评估。
Parea AI(Y Combinator 2023夏季批)提供了一个Python SDK,用于实验、测试、评估和监控基于大型语言模型(LLM)的应用程序。
开发可靠的AI应用程序
我们的免费大型语言模型(LLM)评估工具包可以帮助您评估LLM的准确性、上下文理解能力、语气表达等方面,从而了解您的LLM应用的优劣。
一个用于异步查询大型语言模型(LLM)端点的开源库
Realign是一个用于人工智能应用的测试和仿真框架。
2024 年神经信息处理系统大会 (NeurIPS) 论文:基于预测的大型语言模型排序代码
为你的基于大型语言模型 (LLM) 的应用程序创建一个评估框架,并将其整合到你的测试套件中。同时,奠定监控的基础。
Parea AI(Y Combinator 2023夏季批)提供了一个TypeScript软件开发工具包(SDK),用于实验、测试、评估和监控基于大型语言模型(LLM)的应用程序。
大型语言模型评估框架
Genkit 的社区插件,用于 Promptfoo
Shin Rakuda是一个全面的框架,用于评估和基准测试日语大型语言模型,它为研究人员和开发者提供了一个灵活的工具包,用于评估不同数据集上大型语言模型的性能。
用于 Ruby 语言的提示工程、提示管理和提示评估工具。
Go语言的提示工程、提示管理和提示评估工具
这个示例项目演示了如何使用Promptfoo,这是一个用于评估生成式AI模型输出的测试框架。