Videosprachplanung (VLP) ist ein Algorithmus, der durch das Training von visuell-sprachlichen Modellen und Text-zu-Video-Modellen eine visuelle Planung für komplexe, langfristige Aufgaben ermöglicht. VLP nimmt Anweisungen für langfristige Aufgaben und aktuelle Bildbeobachtungen als Eingabe entgegen und gibt eine detaillierte multimodale (Video und Sprache) Planung aus, die beschreibt, wie die endgültige Aufgabe zu erledigen ist. VLP kann in verschiedenen Robotikbereichen langfristige Videoplanungen generieren, von der Umordnung mehrerer Objekte bis hin zur geschickten Manipulation mit zwei Armen und mehreren Kameras. Die generierte Videoplanung kann mithilfe einer zielbedingten Strategie in reale Roboteraktionen umgesetzt werden. Experimente zeigen, dass VLP im Vergleich zu früheren Methoden die Erfolgsrate langfristiger Aufgaben deutlich verbessert.