Meta AI、思考選好最適化技術を発表、AIモデルの応答品質向上
先日、Meta AIの研究チームは、カリフォルニア大学バークレー校およびニューヨーク大学の研究者と協力し、指示微調整済みの大規模言語モデル(LLM)の応答品質を向上させることを目的とした「思考選好最適化(Thought Preference Optimization、TPO)」という手法を発表しました。従来のモデルが最終的な回答のみに焦点を当てているのに対し、TPO手法はモデルが応答を生成する前に内部的に思考することを可能にし、より正確で首尾一貫した回答を生み出します。この新技術は…