O modelo Instruct-Imagen do Google integrou com sucesso modelos de linguagem grandes e o ecossistema existente de aprendizado autossupervisionado. O modelo utiliza a linguagem natural e o conteúdo de entrada para chamar inteligentemente vários modelos, abrindo novas possibilidades para a geração de imagens multimodais. Os pesquisadores também sugeriram a execução de treinamento aprimorado por recuperação e ajuste de instruções multimodais para melhorar o desempenho e a capacidade de generalização do modelo.