淘天推出創新對齊方法,解決視覺大模型中的幻覺問題
近年來,視覺大模型(Large Vision Language Models, LVLMs)在圖像理解和跨模態任務中展現出非凡的能力,然而隨之而來的 “幻覺現象” 問題也日益突出。爲了應對這一挑戰,淘天集團的未來生活實驗室團隊提出了一種名爲 “令牌偏好優化”(Token Preference Optimization,簡稱 TPO)的新方法,並引入了一種自我校準的視覺錨定獎勵機制。TPO 的最大創新在於它實現了自動化的令牌級獎勵信號。這一方法能夠自動識別偏好數據中的視覺錨定令牌,避免了人工細粒度標註的繁瑣,同時在訓練過程中爲每個令