["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类,包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]
["智谱 AI 发布高质量、低成本的评分模型 CritiqueLLM","传统评价指标如 BLEU 和 ROUGE 缺乏对整体语义的把握","CritiqueLLM 提出可解释、可扩展的文本质量评价模型","在 8 类常见任务中,CritiqueLLM 优于其他模型","CritiqueLLM 通过用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练模型的方法生成评分"]