Vision-R1:強化学習による視覚位置特定、画像テキストモデルの性能を50%向上
中国科学院自動化研究所と中科紫東太初チームは共同で、R1類似の強化学習技術を用いた新しい手法Vision-R1を発表しました。この手法は、視覚位置特定能力を大幅に向上させ、物体検出や視覚位置特定などの複雑なタスクにおいて50%の性能向上を実現しました。これは、パラメータ規模が10倍以上大きい既存の最先端モデル(SOTA)をも上回る成果です。現在、画像テキスト大規模モデルは通常、「事前学習+教師あり微調整」という方法でユーザー指示への応答能力を高めていますが、この方法は…