DriveVLMは、視覚言語モデル(VLMs)を利用してシーン理解と計画能力を強化した自動運転システムです。シーン記述、シーン分析、階層的計画を含む独自の推論モジュールを組み合わせることで、複雑で長尾のシーンに対する理解力を向上させます。さらに、VLMsにおける空間推論と計算需要の制約に対処するため、DriveVLMの利点と従来の自動運転プロセスを組み合わせたハイブリッドシステムであるDriveVLM-Dualを提案しています。nuScenesデータセットとSUP-ADデータセットでの実験により、DriveVLMとDriveVLM-Dualは、複雑で予測不可能な運転状況に対処する上で非常に有効であることが示されました。最終的に、DriveVLM-Dualは量産車に搭載され、現実世界の自動運転環境における有効性が検証されました。