Griffon v2 AIモデル

最新の超高解像度AIモデル、Griffon v2は、テキストと視覚的な手がかりを組み合わせることで、柔軟なオブジェクト参照を実現しました。チームは、ダウンサンプリングプロジェクターを用いることで、マルチモーダルな認識能力を向上させました。このモデルは、参照表現生成、フレーズ位置特定、参照表現理解といったタスクにおいて、専門家モデルを上回る優れた性能を示しています。視覚言語コアファレンス構造を備え、物体検出や物体カウントにおいても卓越した能力を発揮します。