アップルAI/MLチームとコロンビア大学、GoogleのCAPTCHAに挑戦成功
アップルのAI/MLチームとコロンビア大学が共同開発したマルチモーダル大規模言語モデル「フェレット」(Ferret)が、GoogleのCAPTCHA(完全自動公開チューリングテスト)に挑戦し、成功しました。交通信号灯の認識や、大規模言語モデルの「見て、言って、答える」タスクにおける精度向上に貢献します。Ferretの革新性は、参照と位置の空間的理解能力を融合し、意味と対象を同時に理解する点にあります。従来のマルチモーダルモデルとは異なり、混合領域表現法を用いて、離散座標と連続特徴を組み合わせることで、マルチタスク評価において優れた性能を示し、特に指示参照と視覚的グラウンディングにおいて顕著な成果を上げています。