Na onda da tecnologia de IA, a Kwai lançou seu grande modelo de imagem a partir de texto, o Kolors, que, com seu desempenho excepcional e espírito de código aberto, se tornou uma nova estrela brilhante da tecnologia de IA doméstica. O Kolors não apenas superou os modelos de código aberto existentes em termos de efeitos de geração de imagens, mas também atingiu um nível comparável aos modelos comerciais de código fechado, rapidamente gerando discussões nas mídias sociais.
O Caminho de Código Aberto do Kolors
A abertura do código-fonte do Kolors não é apenas um marco tecnológico, mas também uma demonstração da atitude aberta da Kwai em relação à tecnologia de IA. Na Conferência Mundial de Inteligência Artificial, a Kwai anunciou a abertura oficial do código-fonte do Kolors, fornecendo recursos abrangentes, incluindo pesos do modelo, código completo e relatórios técnicos. Atualmente, ele está disponível no Hugging Face e no GitHub para uso gratuito por desenvolvedores em todo o mundo.
E na página inicial do GitHub, foi anunciado o plano de código aberto. O modelo já abriu sua interface e o grande modelo, e posteriormente serão abertos o Lora do Kolors, o ControlNet, etc., o que realmente gera expectativas.
O Desempenho Excepcional do Kolors
O Kolors, com sua poderosa capacidade de compreensão de semântica complexa e qualidade de imagem fotográfica, recebeu ótimas avaliações de desenvolvedores e usuários. Na avaliação de modelos de geração de imagens a partir de texto do FlagEval do Instituto de Inteligência Artificial de Pequim (BAAI), o Kolors obteve uma pontuação subjetiva geral de 75,23 pontos, ficando em segundo lugar no mundo, especialmente se destacando na qualidade da imagem, com a pontuação mais alta.
Inovação Tecnológica do Kolors
O Kolors utiliza um modelo de difusão de espaço latente e combina um grande modelo de linguagem para representação de texto, permitindo-lhe compreender textos longos e complexos. Através de uma estratégia de treinamento progressivo em duas etapas, o Kolors atingiu um nível internacionalmente avançado em termos de estética e qualidade de imagem. Além disso, o Kolors é o primeiro modelo de geração de imagens a partir de texto com suporte nativo para geração de texto em chinês, demonstrando suas vantagens na compreensão e apresentação de elementos característicos chineses.
Implementação do Kolors no ComfyUI
Após tantas apresentações, vocês certamente já estão ansiosos para experimentar. Agora, vamos mostrar como implementar o Kolors localmente.
Já existe uma implementação com um clique do Kolors no GitHub.
Página inicial do GitHub: https://github.com/kijai/ComfyUI-KwaiKolorsWrapper
Página inicial do Hugging Face: https://huggingface.co/Kwai-Kolors/Kolors
Primeiro, copie a URL do projeto.
Após copiar, instale-o no gerenciador do ComfyUI e reinicie.
Em seguida, crie um fluxo de trabalho de geração de imagens a partir de texto Kolors mais simples.
Após a configuração, clique em "Adicionar fila de prompts" para baixar automaticamente o grande modelo e o codificador de texto necessários.
⚠️Atenção: Como os modelos são baixados do Hugging Face, o grande modelo tem aproximadamente 5 GB e o codificador de texto cerca de 11 GB. Portanto, use uma VPN para garantir uma conexão de rede estável.
Finalmente, o modelo será baixado para o seguinte caminho de arquivo:
Resolução de Erros de Instalação
Na primeira vez que você baixar e usar, poderá encontrar um erro de "codificador de texto não encontrado".
A solução é simples: acesse o endereço do projeto no Hugging Face, baixe todos os arquivos JSON e Python na pasta "text_encoder",
e coloque-os na pasta "text_encoder" local. Como os nomes dos arquivos baixados estão incorretos, você precisará renomeá-los de acordo com a imagem abaixo.
Finalmente, você precisará baixar o modelo VAE e colocá-lo no caminho de arquivo mostrado na imagem abaixo.
Caminho de arquivo VAE local:
Após resolver esses problemas, você poderá usar o Kolors para gerar imagens. Usar prompts em chinês no fluxo de trabalho que criamos é muito confortável, e a qualidade da imagem é excelente, sem grandes problemas com as mãos. Também apresenta bons resultados em imagens abstratas, sem perder para o Midjourney.
Kolors e o Futuro da Comunidade de Código Aberto
Em meio à agitação da Stability AI, a abertura do código-fonte do Kolors pela Kwai se tornou um novo foco da comunidade de código aberto. A Kwai planeja gradualmente abrir o código-fonte dos componentes de aplicativos relacionados ao Kolors, enriquecendo seu ecossistema de código aberto e esperando trabalhar com desenvolvedores globais para promover o desenvolvimento da comunidade de grandes modelos de geração de imagens a partir de texto.
Conclusão
O grande modelo Kolors da Kwai, com sua atitude aberta, tecnologia de alto padrão e aplicações comerciais práticas, demonstra a verdadeira força da tecnologia de IA doméstica. Na era da evolução contínua da tecnologia de IA, a abertura do código-fonte e a implementação do Kolors nos mostram o potencial ilimitado da combinação de tecnologia e formatos de conteúdo. Com mais empresas e desenvolvedores se juntando ao ecossistema de código aberto do Kolors, podemos acreditar que isso trará novas oportunidades de desenvolvimento para toda a indústria.
------------------------------------------------------------------------------------------
Tutoriais de IA do Site Master são uma plataforma de tutoriais de desenho de IA da ChinaZ.
Grande quantidade de tutoriais de IA gratuitos, conteúdo prático atualizado continuamente.
Para aprender mais tutoriais de desenho de IA, visite o site de tutoriais de IA do Site Master: