OK-Robot es un marco modular abierto que permite la manipulación de objetos en cualquier entorno doméstico a partir de instrucciones de lenguaje, sin necesidad de ejemplos previos. El marco utiliza un diseño modular, empleando 3D VoxelMap para la navegación con vocabulario abierto, AnyGrasp y LangSam para la prensión con vocabulario abierto, y primitivas de colocación para colocar los objetos. El marco no requiere entrenamiento previo y permite la generalización a cero ejemplos a partir de instrucciones de lenguaje.