探索AI前沿,掌握行业发展趋势
每日精选AI热点,追踪最新行业动态
精准筛选产品,多维度产品调研
热门AI产品实力、热度、年/月/日排行
提交AI产品信息,助力产品推广和用户转化
一站式AI工具指南,快速找到你需要的工具
一站式GEO品牌洞察 提升AI搜索转化率
检查您的品牌在 AI 搜索中是如何被评价和展示的
检测品牌在AI平台中的可见度
快速评估推广文章在AI 平台的引用情况
拥有属于自己的GEO系统,助您成为专业GEO优化服务商
通过AI搜索优化服务,让品牌在AI中实现霸屏
聚集热门MCP服务,快速找到适合你的服务
轻松接入MCP客户端,调用强大的AI能力
学习MCP使用技巧,从入门到精通
热门MCP服务性能排行,帮你找到最佳选择
发布你的MCP服务,推广你的MCP服务
自由测试MCP服务,线上快速体验
快速测试MCP服务,快速上线
国内外主流大模型的统一API接入与调用服务
涵盖各类AI模型,满足你的开发与研究需求
寻找优质模型提供商,获取可靠模型支持
热门AI大模型性能、热度、年/月/日排行
多维度对比大模型,找到最适合你的模型
精准计算大模型使用成本,合理规划预算
多模型实时评测,模型输出结果快速比对
一键检测电脑配置,研判运行模型的兼容性
根据算力需求,推荐匹配的服务器配置
发现与 Evals 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
人工智能可观测性和评估
用于AI智能体监控、大语言模型成本追踪、基准测试等的Python软件开发工具包(SDK)。它与大多数大语言模型和智能体框架集成,包括OpenAI Agents SDK、CrewAI、Langchain、Autogen、AG2和CamelAI。
微调大型语言模型、生成合成数据和协作构建数据集最简单的工具。
UpTrain是一个开源的统一平台,用于评估和改进生成式AI应用程序。我们提供20多种预配置检查的评分(涵盖语言、代码、嵌入式用例),对失败案例进行根本原因分析,并提供如何解决问题的见解。
Evaluate your LLM-powered apps with TypeScript
RAGLite是一个Python工具包,用于基于PostgreSQL或SQLite数据库的检索增强生成 (RAG) 。
Text analytics for LLM apps. Cluster messages to detect use cases, outliers, power users. Detect intents and run evals with LLM (OpenAI, MistralAI, Ollama, etc.)
OSS RL environment + evals toolkit
Code Repository for: AIRTBench: Measuring Autonomous AI Red Teaming Capabilities in Language Models
通过批量测试不同的模型和提示词,开发更优秀的LLM应用程序。
Open-source toolkit for responsible AI: CLI + SDK to scan code, collect evidence, and generate model cards, risk files, evals, and RAG indexes.
一个用于评估检索增强生成 (RAG) 系统的库(传统方法)
Evaluate and compare AI language models on coding tasks with Evals. Run structured tests, integrate usage rules, and generate detailed reports. ??
Go人工智能(GAI)帮助你使用基础模型、大型语言模型和其他人工智能模型。
对Anthropic公司关于“模型评估的统计方法”的论文和文章的实现
Open source framework for evaluating AI Agents
A TypeScript library for enabling AI Agents to communicate with each other in structured conversations.
我们比较了LangChain、Fixie和Marvin这三个工具。
Analyze and generate unstructured data using LLMs, from quick experiments to billion token jobs.
EvalView: pytest-style test harness for AI agents - YAML scenarios, tool-call checks, cost/latency & safety evals, CI-friendly reports