Octopus est un agent intelligent programmable visuellement capable d'exécuter des tâches complexes en apprenant et en comprenant les entrées visuelles. Cela inclut, par exemple, devenir un citoyen modèle cinq étoiles dans le jeu vidéo Grand Theft Auto.
Les chercheurs ont développé deux environnements de simulation, OctoGibson et OctoGTA, à l'aide d'OctoVerse, pour entraîner Octopus. Grâce à des algorithmes d'apprentissage par renforcement, Octopus peut non seulement planifier des tâches, mais aussi les exécuter, devenant ainsi un joueur cinq étoiles dans GTA. Cette recherche ouvre de nouvelles perspectives pour l'application des modèles vision-langage aux tâches d'intelligence incarnée.