最好的Critique AI工具模型_精选Critique资讯

AI资讯

微软推出 Critique 功能让 GPT 与 Claude 协同科研

微软为Microsoft 365 Copilot推出Critique功能，首次整合GPT与Claude协同工作。GPT负责生成研究初稿，Claude则扮演审稿人角色，严格核查内容准确性与完整性，实现多模型协作处理复杂学术任务。

推理性能再飞跃!DeepSeek推创新技术SPCT，让大模型更懂人心

备受瞩目的中国人工智能研究实验室DeepSeek AI，继其强大的开源语言模型DeepSeek-R1之后，再次在大型语言模型（LLM）领域取得重大突破。近日，DeepSeek AI正式推出一项名为自主演原则的批判调优(Self-Principled Critique Tuning，简称SPCT)的创新技术，旨在构建更通用、更具扩展性的AI奖励模型(Reward Models，简称RMs)。这项技术有望显著提升AI在开放式任务和复杂环境中的理解和应对能力，为更智能的AI应用铺平道路。背景:奖励模型——强化学习的“指路明灯”在开发先进的LLM的过程中，强化学习（Reinfo

18.7k 昨天

智谱 AI 发布中文 LLM 对齐评测基准 AlignBench

["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类，包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测，并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站，提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]

15.7k 前天

智谱 AI 发布 CritiqueLLM 评分模型，可评估文本生成模型性能

["智谱 AI 发布高质量、低成本的评分模型 CritiqueLLM","传统评价指标如 BLEU 和 ROUGE 缺乏对整体语义的把握","CritiqueLLM 提出可解释、可扩展的文本质量评价模型","在 8 类常见任务中，CritiqueLLM 优于其他模型","CritiqueLLM 通过用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练模型的方法生成评分"]

16.3k 16 小时前

模型

DeepSeek GRM 16B

BBQGOD

DeepSeek-GRM-16B 是一个基于 Self-Principled Critique Tuning (SPCT) 的生成式奖励模型，能为查询-响应生成透明的'原则→批判→分数'评估流程，可用于大语言模型的强化学习、评估和数据收集等任务。

智启未来，您的人工智能解决方案智库

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图