CMU 團隊推出元強化微調:提升大語言模型推理能力的新範式
在人工智能領域,大語言模型(LLM)正在不斷進化,最近,卡內基梅隆大學(CMU)與 HuggingFace 的研究者們共同提出了一種名爲 “元強化微調”(Meta Reinforcement Fine-Tuning,簡稱 MRT)的新方法。這一方法旨在優化大語言模型在測試時的計算效率,尤其是在解決複雜推理問題時,表現尤爲突出。研究表明,現有的大語言模型在推理過程中常常消耗過多的計算資源,而 MRT 的目標是讓模型在給定的計算預算內,實現更高效的答案發現。該方法將大語言模型的輸出分割成多個片段,以便在探索與利用之間