微软为Microsoft 365 Copilot推出Critique功能,首次整合GPT与Claude协同工作。GPT负责生成研究初稿,Claude则扮演审稿人角色,严格核查内容准确性与完整性,实现多模型协作处理复杂学术任务。
备受瞩目的中国人工智能研究实验室DeepSeek AI,继其强大的开源语言模型DeepSeek-R1之后,再次在大型语言模型(LLM)领域取得重大突破。近日,DeepSeek AI正式推出一项名为自主演原则的批判调优(Self-Principled Critique Tuning,简称SPCT)的创新技术,旨在构建更通用、更具扩展性的AI奖励模型(Reward Models,简称RMs)。这项技术有望显著提升AI在开放式任务和复杂环境中的理解和应对能力,为更智能的AI应用铺平道路。背景:奖励模型——强化学习的“指路明灯”在开发先进的LLM的过程中,强化学习(Reinfo
["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类,包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]
["智谱 AI 发布高质量、低成本的评分模型 CritiqueLLM","传统评价指标如 BLEU 和 ROUGE 缺乏对整体语义的把握","CritiqueLLM 提出可解释、可扩展的文本质量评价模型","在 8 类常见任务中,CritiqueLLM 优于其他模型","CritiqueLLM 通过用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练模型的方法生成评分"]
BBQGOD
DeepSeek-GRM-16B 是一个基于 Self-Principled Critique Tuning (SPCT) 的生成式奖励模型,能为查询-响应生成透明的'原则→批判→分数'评估流程,可用于大语言模型的强化学习、评估和数据收集等任务。