O Planejamento de Linguagem de Vídeo (VLP) é um algoritmo que, através do treinamento de modelos de linguagem visual e de modelos de texto para vídeo, realiza o planejamento visual para tarefas complexas e de longo prazo. O VLP recebe como entrada instruções de tarefas de longo prazo e observações de imagens atuais, e retorna um planejamento multimodal detalhado (vídeo e linguagem), descrevendo como concluir a tarefa final. O VLP consegue gerar planejamentos de vídeo de longo prazo em diferentes áreas de robótica, desde o rearranjo de múltiplos objetos até a manipulação ágil com dois braços e múltiplas câmeras. O planejamento de vídeo gerado pode ser convertido em ações de robôs reais por meio de uma estratégia de condicionamento por objetivos. Experimentos demonstram que, em comparação com métodos anteriores, o VLP melhora significativamente a taxa de sucesso em tarefas de longo prazo.