谷歌 DeepMind 通過強化學習微調提升 AI 決策能力
近期,谷歌 DeepMind 團隊與約翰・開普勒林茨大學 LIT AI 實驗室合作,開展了一項關於人工智能語言模型的新研究。他們採用了強化學習微調(RLFT)技術,旨在提升語言模型的決策能力。這項研究的重點在於,通過思維鏈的強化訓練,解決了模型在決策過程中存在的一些關鍵問題。隨着大數據的應用,現有的語言模型已經展現出處理文本的超越能力,甚至能夠在交互環境中做出基於知識的決策。然而,這些模型在實際決策時卻常常出現 “紙上談兵” 的問題,雖然能推導出正確的策略,卻無