No campo da geração de imagens de IA, o método tradicional de prompts de texto já é bastante comum. No entanto, o Whisk, lançado pelo Google, apresenta um novo método priorizando a visão. Ele permite que os usuários usem imagens como entrada para gerar e remixar ideias criativas, oferecendo aos criadores uma experiência de geração de imagens mais intuitiva e criativa.
Introdução ao Whisk
Whisk é uma ferramenta inovadora de IA generativa lançada pelo Google Labs. Usando os modelos Gemini e Imagen 3, ele gera novas imagens a partir de imagens de entrada fornecidas pelo usuário que representam o assunto, o cenário e o estilo. A ferramenta é focada principalmente na exploração criativa, destinada a ajudar os usuários a gerar e iterar rapidamente várias ideias criativas, e não para edição precisa de imagens. Atualmente, o Whisk está disponível apenas para usuários nos EUA (IP dos EUA), e os usuários podem usar a ferramenta e fornecer feedback em labs.google/whisk.
Destaques dos recursos do Whisk
- Geração baseada em imagens: Os usuários podem carregar imagens para determinar o assunto, o cenário e o estilo, em vez de usar prompts de texto. Isso oferece uma maneira mais conveniente para usuários que não são bons em escrever prompts de texto. Por exemplo, um usuário pode carregar uma imagem de um gato como assunto, uma imagem de uma folha de lótus como cenário e uma imagem com elementos brilhantes como estilo para gerar uma imagem única.
- Legendas detalhadas geradas automaticamente: O modelo Gemini cria automaticamente legendas detalhadas para as imagens carregadas pelo usuário. Essas legendas são inseridas no modelo Imagen 3 para capturar melhor as características principais da imagem e gerar uma nova imagem que corresponda à intenção do usuário.
- Remix criativo: É possível remixar imagens diferentes de assunto, cenário e estilo para criar designs exclusivos, como bonecos digitais, broches de esmalte e outros produtos criativos.
- Captura de essência, não cópia: Ele captura as características essenciais das imagens de entrada, em vez de copiá-las exatamente. Isso permite maior variação criativa nas imagens geradas, mas também pode fazer com que os resultados não correspondam exatamente às expectativas do usuário.
- Dicas editáveis: Os usuários podem visualizar e editar as informações de prompt subjacentes para ajustar e otimizar as imagens geradas de acordo com suas necessidades, como modificar cores, padrões etc.
Cenários de aplicação
- Design criativo: Designers podem usar o Whisk para explorar rapidamente diferentes direções de design, carregando várias imagens relevantes para gerar inspiração criativa, como projetar uma aparência única para um novo produto.
- Criação artística: Artistas podem usar o Whisk para a concepção inicial de obras de arte, combinando e experimentando diferentes elementos por meio de entrada de imagem. Por exemplo, para criar uma pintura de tema fantástico, carregando imagens de criaturas fantásticas, cenários etc., para obter ideias criativas.
- Personalização de produtos: Para o setor de personalização de produtos, como emblemas personalizados, adesivos etc., o Whisk pode ajudar os usuários a gerar rapidamente várias opções de design. Os usuários precisam apenas carregar imagens que representem seus gostos de assunto, cenário e estilo para obter um design personalizado exclusivo.
- Marketing e publicidade: Os planejadores de publicidade podem usar o Whisk para gerar materiais publicitários criativos. Carregando imagens de assunto relacionadas ao produto e imagens de cenário e estilo que correspondam à imagem da marca, eles podem obter rapidamente imagens publicitárias atraentes para publicidade online e offline.
- Educação: Na educação, os professores podem usar o Whisk para auxiliar no ensino. Por exemplo, em aulas de arte, os alunos podem carregar imagens de coisas em que estão interessados para inspirar a criação, cultivando sua criatividade e imaginação.
Tutorial de uso do Whisk
- Acesse a ferramenta: Usuários com IP dos EUA podem acessar a página da ferramenta Whisk em labs.google/whisk.
- Carregue imagens: Carregue imagens que representem o assunto, o cenário e o estilo de acordo com o conteúdo da imagem a ser gerado. Se não houver imagens adequadas, você também pode clicar no ícone de dado para obter algumas imagens sugeridas (essas imagens também podem ser geradas por IA).
- Gere imagens: Depois de carregar as imagens, o Whisk gerará automaticamente novas imagens e prompts de texto correspondentes.
- Visualize e ajuste: Visualize as imagens geradas. Se não estiver satisfeito, você pode editar as informações de prompt na caixa de texto ou clicar na imagem e editar o prompt de texto correspondente para ajustar e otimizar a imagem.
- Baixe ou salve: Se estiver satisfeito com as imagens geradas, você pode baixá-las e salvá-las ou adicioná-las aos favoritos para uso posterior.
Conclusão
Como uma ferramenta inovadora de geração de imagens de IA, o Whisk oferece aos usuários uma nova experiência criativa com sua maneira única de entrada de imagem e recursos de remix criativo. Ele tem valor de aplicação potencial em várias áreas, como design criativo, criação artística e personalização de produtos. Embora esteja atualmente disponível apenas para usuários nos EUA e possa haver alguns resultados de geração imperfeitos, a direção de geração de imagens de IA com prioridade visual que ele representa merece nossa atenção.
Se você estiver interessado em criatividade e geração de imagens de IA, curta, comente e acompanhe o desenvolvimento do Whisk. Esperamos que ele nos traga mais surpresas e possibilidades no futuro.