La Planification Visuelle Linguistique (PVL) est un algorithme qui, grâce à l'entraînement de modèles vision-langage et de modèles texte-vers-vidéo, permet la planification visuelle de tâches complexes à long terme. La PVL prend en entrée une instruction de tâche à long terme et une observation d'image actuelle, et produit en sortie une planification multimodale détaillée (vidéo et langage) décrivant comment accomplir la tâche finale. La PVL est capable de générer des planifications vidéo à long terme dans différents domaines de la robotique, allant du réarrangement de plusieurs objets à la manipulation habile à deux bras avec plusieurs caméras. La planification vidéo générée peut être convertie en actions robotiques réelles grâce à une stratégie de conditionnement par objectif. Les expérimentations démontrent que, comparée aux méthodes précédentes, la PVL améliore significativement le taux de réussite des tâches à long terme.