微軟爲Microsoft 365 Copilot推出Critique功能,首次整合GPT與Claude協同工作。GPT負責生成研究初稿,Claude則扮演審稿人角色,嚴格覈查內容準確性與完整性,實現多模型協作處理複雜學術任務。
備受矚目的中國人工智能研究實驗室DeepSeek AI,繼其強大的開源語言模型DeepSeek-R1之後,再次在大型語言模型(LLM)領域取得重大突破。近日,DeepSeek AI正式推出一項名爲自主演原則的批判調優(Self-Principled Critique Tuning,簡稱SPCT)的創新技術,旨在構建更通用、更具擴展性的AI獎勵模型(Reward Models,簡稱RMs)。這項技術有望顯著提升AI在開放式任務和複雜環境中的理解和應對能力,爲更智能的AI應用鋪平道路。背景:獎勵模型——強化學習的“指路明燈”在開發先進的LLM的過程中,強化學習(Reinfo
["智譜 AI 發佈了針對中文大模型的評測基準 AlignBench","AlignBench 能夠在多維度上細緻評測模型和人類意圖的對齊水平","數據集分爲 8 個大類,包括知識問答、寫作生成、角色扮演等多種類型的問題","開發者可以利用 AlignBench 進行評測,並使用評價能力較強的打分模型進行評分","通過登錄 AlignBench 網站,提交結果可以使用 CritiqueLLM 作爲評分模型進行評測"]
["智譜 AI 發佈高質量、低成本的評分模型 CritiqueLLM","傳統評價指標如 BLEU 和 ROUGE 缺乏對整體語義的把握","CritiqueLLM 提出可解釋、可擴展的文本質量評價模型","在 8 類常見任務中,CritiqueLLM 優於其他模型","CritiqueLLM 通過用戶詢問增廣、含參考文本評價數據收集、無參考文本評價數據改寫和訓練模型的方法生成評分"]
BBQGOD
DeepSeek-GRM-16B 是一個基於 Self-Principled Critique Tuning (SPCT) 的生成式獎勵模型,能為查詢-響應生成透明的'原則→批判→分數'評估流程,可用於大語言模型的強化學習、評估和數據收集等任務。