夕小瑶科技说 | GPT-4Vはもう褒めないで!北京ダックさえ認識できないなんて信じられますか?
新しく提案された画像推論ベンチマークHallusionBenchは、GPT-4Vなどの視覚言語モデルを検証するために使用され、言語的幻覚と視覚的錯覚の問題があることが発見されました。GPT-4Vなどのモデルは、HallusionBenchにおいて、パラメータ化されたメモリの影響を受けやすく、言語的幻覚による誤答率は最大90%に達します。GPT-4Vなどは、HallusionBenchにおいて幾何学的錯覚などの視覚的錯覚を生じやすく、現在の視覚能力はまだ限定的です。簡単な画像操作でGPT-4Vなどのモデルを簡単に誤導することができ、その脆さを反映しています。