MagicQuill é um sistema integrado de edição de imagem projetado para ajudar os usuários a realizarem suas ideias criativas rapidamente. O sistema parte de uma interface simples, porém poderosa, permitindo que os usuários expressem seus pensamentos com alguns toques, como inserir elementos, apagar objetos e alterar cores. Essas interações são monitoradas em tempo real por um modelo de linguagem grande multimodal (MLLM) para prever a intenção do usuário sem a necessidade de prompts. Por fim, aplicamos um poderoso *prior knowledge* de difusão, por meio de um módulo de plug-in de dois ramos cuidadosamente aprendido, para controlar precisamente os pedidos de edição.