NVIDIA、画像を見てチャットできる新しいビジョン言語モデル「NVEagle」を発表
NVIDIAは複数の大学と共同で、画像を見てチャットできる大規模ビジョン言語モデル「NVEagle」を発表しました。NVEagleは画像の内容を解析し、正確な回答を生成できます(例:画像内の人物をジェンスン・フアンと識別)。このモデルは、画像をビジュアルトークンに変換し、テキスト埋め込みと組み合わせることで、視覚情報の理解能力を大幅に向上させています。高解像度画像処理の課題に対処するため、研究チームは様々なビジュアルエンコーダと融合戦略を検討し、Eagle-X5-7B、Eagle-Xを含むモデルを構築しました。