Meta 研究团队推出新方法,让 AI 模型在回答前 “思考”!
最近,Meta、加州大学伯克利分校和纽约大学的科学家们合作研发了一种新技术,名为 “思维偏好优化”(Thought Preference Optimization,简称 TPO)。这项技术的目标是提升大型语言模型(LLMs)在执行各种任务时的表现,让 AI 在回答之前更加仔细地考虑自己的反应。研究人员表示,“思考” 应该具有广泛的实用性。比如,在创意写作任务中,AI 可以利用内在的思维过程来规划整体结构和角色发展。这种方法与以往的 “链式思考”(Chain-of-Thought,CoT)提示技术有显著不同。后者主要应用于数学和