淘天推出创新对齐方法,解决视觉大模型中的幻觉问题
近年来,视觉大模型(Large Vision Language Models, LVLMs)在图像理解和跨模态任务中展现出非凡的能力,然而随之而来的 “幻觉现象” 问题也日益突出。为了应对这一挑战,淘天集团的未来生活实验室团队提出了一种名为 “令牌偏好优化”(Token Preference Optimization,简称 TPO)的新方法,并引入了一种自我校准的视觉锚定奖励机制。TPO 的最大创新在于它实现了自动化的令牌级奖励信号。这一方法能够自动识别偏好数据中的视觉锚定令牌,避免了人工细粒度标注的繁琐,同时在训练过程中为每个令