ROCKET-1 ist ein visuell-linguistisches Modell (VLMs), das speziell für die körperliche Entscheidungsfindung in offenen Welten entwickelt wurde. Das Modell verbindet VLMs und Strategiemodelle über ein visuell-zeitliches Kontext-Prompt-Protokoll, wobei die Objektsegmentierung aus vergangenen und aktuellen Beobachtungen zur Steuerung der Strategie-Umwelt-Interaktion verwendet wird. Auf diese Weise kann ROCKET-1 die visuell-linguistischen Schlussfolgerungsfähigkeiten von VLMs freisetzen, um komplexe, kreative Aufgaben zu lösen, insbesondere im Bereich des räumlichen Verständnisses. Experimente in Minecraft zeigen, dass der Ansatz ROCKET-1 es dem Agenten ermöglicht, zuvor unlösbare Aufgaben zu bewältigen und die Effektivität des visuell-zeitlichen Kontext-Prompts bei der körperlichen Entscheidungsfindung hervorhebt.