Vision-R1:強化學習助力視覺定位,圖文模型性能提升 50%
近日,中國科學院自動化研究所與中科紫東太初團隊聯手推出了一種新方法 ——Vision-R1,利用類 R1強化學習技術,顯著提升了視覺定位的能力。這個方法不僅在目標檢測和視覺定位等複雜任務上實現了50% 的性能提升,甚至超過了參數規模超過10倍的現有最優模型(SOTA)。當前,圖文大模型通常依賴 “預訓練 + 監督微調” 的方法來提高對用戶指令的響應能力,但這種方法在資源消耗和訓練效率上都存在較大挑戰。Vision-R1通過結合高質量的指令對齊數據和強化學習,創新性地改變了這一局面