推理性能再飛躍!DeepSeek推創新技術SPCT,讓大模型更懂人心
備受矚目的中國人工智能研究實驗室DeepSeek AI,繼其強大的開源語言模型DeepSeek-R1之後,再次在大型語言模型(LLM)領域取得重大突破。近日,DeepSeek AI正式推出一項名爲自主演原則的批判調優(Self-Principled Critique Tuning,簡稱SPCT)的創新技術,旨在構建更通用、更具擴展性的AI獎勵模型(Reward Models,簡稱RMs)。這項技術有望顯著提升AI在開放式任務和複雜環境中的理解和應對能力,爲更智能的AI應用鋪平道路。背景:獎勵模型——強化學習的“指路明燈”在開發先進的LLM的過程中,強化學習(Reinfo