ビデオ言語プランニング(VLP)は、視覚言語モデルとテキストからビデオへのモデルを学習することにより、複雑な長期タスクの視覚的計画を実現するアルゴリズムです。VLPは長期タスク指示と現在の画像観測を入力として受け取り、最終タスクを完了する方法を記述する詳細なマルチモーダル(ビデオと言語)計画を出力します。VLPは、多物体再配置からマルチカメラ双腕器用操作まで、様々なロボット分野において長期ビデオ計画を生成できます。生成されたビデオ計画は、目標条件戦略によって実際のロボット動作に変換できます。実験により、VLPは従来の方法と比較して、長期タスクの成功率を大幅に向上させることが実証されました。