Octopus es un agente inteligente programable basado en la visión, capaz de realizar tareas complejas mediante el aprendizaje y la comprensión de entradas visuales. Esto incluye, por ejemplo, convertirse en un ciudadano ejemplar de cinco estrellas en el videojuego "Grand Theft Auto". Los investigadores utilizaron OctoVerse para desarrollar dos entornos de simulación, OctoGibson y OctoGTA, para entrenar a Octopus. A través de algoritmos de aprendizaje por refuerzo, Octopus no solo puede planificar tareas, sino también ejecutarlas, convirtiéndose así en un jugador de GTA de cinco estrellas. Esta investigación abre nuevas posibilidades para la aplicación de modelos visuales-lingüísticos en tareas de inteligencia encarnada.