El modelo Instruct-Imagen de Google integra con éxito los grandes modelos de lenguaje con el ecosistema existente de aprendizaje autosupervisado. Este modelo invoca inteligentemente varios modelos a través del lenguaje natural y el contenido de entrada, abriendo nuevas posibilidades en el campo de la generación de imágenes multimodales. Los investigadores también sugieren la implementación de entrenamiento mejorado por recuperación y ajuste de instrucciones multimodales para mejorar el rendimiento y la capacidad de generalización del modelo.