Recientemente, investigadores de UCLA y otras instituciones presentaron MultiPLY, un gran modelo de inteligencia encarnada. Este modelo no solo posee capacidades de percepción multimodal, incluyendo tacto, visión y audición, lo que permite a la IA interactuar de manera más completa con entornos 3D.
A través de la interacción del agente con el entorno 3D, MultiPLY ha demostrado un excelente rendimiento en experimentos de recuperación de objetos, uso de herramientas, anotación multisensorial y descomposición de tareas.
Además, los investigadores crearon un conjunto de datos multisensoriales a gran escala llamado Multisensory-Universe, que contiene 500.000 entradas. Esta investigación proporciona nuevas ideas para la construcción de grandes modelos con capacidades multisensoriales y ofrece una nueva dirección para lograr la Inteligencia Artificial General (AGI).