FLUX.1: O novo modelo de IA de pintura mais poderoso, tutorial de implantação local!

站长素材

Publicado emNotícias e Informações de IA · 9 minutos de leitura · Aug 5, 2024

3.8k

O Flux recentemente recebeu muitos elogios de entusiastas de modelos, com qualidade de imagem superior à do SD3 e MJ. Muitos dizem que o Flux é o SD3 que todos desejavam, então fiquei muito curioso sobre a capacidade do FLux e, de quebra, compartilho o processo de instalação com vocês.

Imagem de referência do site:

Página inicial do site Flux: https://blackforestlabs.ai/

A startup de inteligência artificial Black Forest Labs lançou sua primeira suíte de modelos de IA de texto para imagem, FLUX.1. Esta empresa sediada na Alemanha foi fundada por pesquisadores que desenvolveram o Stable Diffusion, com o objetivo de criar IA generativa avançada para imagens e vídeos.

O modelo é dividido em três versões: Pro, Dev e Schnell.

Os gráficos da Black Forest afirmam que seus modelos Pro e Dev são os melhores geradores de imagens até hoje, enquanto o Schnell, com recursos mais limitados, se situa entre o Midjourney v5 e o Ideogram.

Descrição das três versões:

Pro: A versão com melhor resultado, mas de código fechado e com API paga.
Dev: Versão de código aberto, mas não comercial. Requer pelo menos 24 GB de VRAM para funcionar.
Schnell: Versão de código aberto e comercial.

Se você quiser experimentar online, há sites disponíveis:

Schnell: https://replicate.com/black-forest-labs/flux-schnell

Dev: https://replicate.com/black-forest-labs/flux-dev

Pro: https://replicate.com/black-forest-labs/flux-pro

Implementação Local

A versão mais recente do ComfyUI já é compatível com o modelo FLux. Basta atualizar o núcleo para a versão mais recente para experimentar.

Portanto, primeiro atualizaremos o ComfyUI.

Se você estiver usando o pacote integrado oficial do ComfyUI, clique aqui para atualizar.

Se você estiver usando o iniciador da Akiha, atualize o núcleo conforme o exemplo na imagem abaixo.

Para quem tem pouca memória de vídeo, a execução local provavelmente será difícil. Meu computador tem uma configuração razoável, então vou experimentar a versão Schnell.

Download do modelo grande: https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main

Este link fornece um modelo grande de 23,8 GB e um modelo VAE de 335 MB. Precisamos baixar os dois.

Após o download, coloque o modelo grande na pasta: ComfyUI/models/unet/.
O VAE deve ser colocado na pasta ComfyUI/models/vae/.

Se seu computador tiver configurações modestas, você pode baixar a versão simplificada Flux-fp8, com apenas 11,9 GB: https://huggingface.co/Kijai/flux-fp8/blob/main/flux1-dev-fp8.safetensors

O VAE continua sendo o ae.sft universal.

Além do modelo grande e do VAE, precisamos baixar o modelo Clip: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main

Este é na verdade o modelo Clip do SD3. Para configurações boas, escolha fp16; para configurações comuns, escolha fp8; o clip_l é obrigatório.

Após o download, coloque-o na pasta: ComfyUI\models\clip

Após a instalação do modelo grande, VAE e Clip, podemos executar nosso fluxo de trabalho. O site oficial fornece um fluxo de trabalho ComfyUI simplificado: https://comfyanonymous.github.io/ComfyUI_examples/flux/

Salve a imagem fornecida pelo site oficial.

Arraste a imagem para o ComfyUI. Se você não quiser fazer isso, pode entrar em nosso grupo de discussão para obter o fluxo de trabalho diretamente.

No fluxo de trabalho, certifique-se de que o modelo esteja carregado corretamente e clique em "Adicionar à fila" para aguardar a geração.

Resultado da Geração de Imagens

Prompt 1: a bottle with a rainbow galaxy inside it on top of a wooden table on a table in the middle of a modern kitchen

Prompt 2: photograph of a black board in an old classroom. On the black board in chalk are the words “Lets make some really pretty stuff together” with a red chalk heart after the words. Sunlight is streaming in from the window

Prompt 3: filmic photo of a group of three women on a street downtown， they are holding their hands up the camera

Prompt 4: macro photography of a miniature little village on top of a flower

Versão FP8, Prompt 5: close up fujifilm photo of a mans eye and fac

Prompt 6: beautiful anime artwork， a cute anime girl standing alone at night darkness wearing an oversized black raincoat with a small bag. she is holding a black umbrella， the umbrella has multicolored LED hidden inside that shine down on her， small rose petals flutter through the air around her， anime screencap style， red eyes， medium hair

Conclusão

No geral, os testes mostraram resultados muito bons. O FLUX é superior ao SD3.

A geração de mãos é mais estável, com menos deformidades.
A versão destilada gera imagens rapidamente, em menos de 30 segundos. A versão Dev leva mais tempo, mas a qualidade da imagem é melhor.
Alta compatibilidade de modelos: os resultados são excelentes em estilos como anime, retratos, realismo e paisagens.

----------------------------------------------------------------------------------------

Tutoriais de IA do Site Master são uma plataforma de tutoriais de desenho de IA da Site Master Home

Grande quantidade de tutoriais de IA gratuitos, com conteúdo prático atualizado constantemente.

Para aprender mais sobre tutoriais de desenho de IA, visite o site de tutoriais de IA do Site Master:

https://aisc.chinaz.com/jiaocheng/

Executivo da Xbox sugere uso de IA para lidar com emoções causadas por demissões, gerando controvérsia

Microsoft anuncia demissões globais de 9.000 pessoas e o executivo da Xbox Matt Turnbull sugere que os funcionários demitidos utilizem ferramentas de IA como o ChatGPT para aliviar as emoções, gerando controvérsia. Ele compartilhou modelos de prompts para a orientação profissional, mas essa sugestão foi criticada como ofensiva, com usuários acreditando que a IA não pode substituir a dor emocional causada pelas demissões. Essas demissões afetam 4% dos funcionários da Microsoft e o departamento de jogos pode sofrer maior impacto. O incidente reflete um debate social sobre o apoio psicológico aos funcionários e os limites do uso de IA em meio a uma onda de demissões nas empresas tecnológicas.

O Google lança a ferramenta de código aberto MCP Toolbox for Databases: 10 linhas de código para desbloquear as infinitas possibilidades da IA e dos bancos de dados

O Google lançou a ferramenta de código aberto MCP Toolbox for Databases, simplificando a integração de agentes de IA com bancos de dados SQL. A ferramenta conecta bancos de dados com apenas 10 linhas de código, suportando mecanismos de segurança como gerenciamento de pool de conexões, autenticação e autoinspeção de esquema, compatível com diversos bancos de dados da Google Cloud. Como projeto de código aberto, ela reduz a barreira para o desenvolvimento, mas atualmente suporta principalmente bancos de dados da ecologia da Google, podendo precisar de expansão de compatibilidade no futuro. Essa ferramenta tem potencial para se tornar um componente padrão no desenvolvimento de IA, impulsionando a análise inteligente de dados

Transforme em alta definição com um toque! A Universidade Politécnica de Hong Kong se une à OPPO para abrir o DLoRAL, trazendo uma revolução na resolução de vídeo

Hong Kong PolyU e OPPO lançaram DLoRAL, um framework de super-resolução de vídeo com arquitetura dual LoRA (CLoRA para consistência temporal e DLoRA para detalhes espaciais). Treinamento em duas etapas garante fluidez e nitidez, com velocidade 10x maior que métodos tradicionais. Código aberto no GitHub, promete avanços em aplicações de vídeo em tempo real.....

DLoRAL: Framework de Alta Definição para Vídeos de Código Aberto, Desenvolvido pela Universidade Politécnica de Hong Kong e OPPO

A Universidade Politécnica de Hong Kong e o Instituto de Pesquisa OPPO lançaram juntos o framework de super-resolução para vídeos de código aberto DLoRAL, que gera vídeos em alta definição em uma etapa, utilizando modelos de difusão. O framework adota uma arquitetura dupla LoRA: o C-LoRA mantém a consistência entre frames e o D-LoRA aprimora os detalhes espaciais; com uma estratégia de treinamento em duas etapas, otimiza a coesão temporal e as informações de alta frequência. Comparado aos métodos tradicionais, o DLoRAL aumenta em 10 vezes a velocidade de inferência, mantendo a fluidez, melhorando significativamente os detalhes da imagem e fornecendo uma solução eficiente e de código aberto para a melhoria da definição dos vídeos.

O WebSailor, um agente de inteligência de rede da Alibaba Cloud, supera vários modelos proprietários

O WebSailor, um agente de inteligência de rede da Alibaba Cloud, obteve excelentes resultados nos testes BrowseComp com suas versões de 32B e 72B, superando diversos modelos proprietários, ficando apenas atrás do OpenAI DeepResearch. O projeto foi lançado no GitHub com soluções de construção e conjunto de dados, promovendo a inovação aberta na área de IA e fornecendo aos desenvolvedores ferramentas mais inteligentes para interação com páginas da web.

A Apple desenvolve um agente de IA para ajudar pessoas cegas a explorar imagens de ruas virtualmente

A Apple lançou o agente de IA SceneScout, que fornece descrições ambientais para pessoas com deficiência visual analisando imagens de ruas. Essa tecnologia inclui dois modos: visualização prévia de rotas e exploração virtual, com uma taxa de precisão de 72% a 95%. Estudos com usuários mostraram que ajuda a melhorar a percepção do ambiente, mas sugerem a inclusão de descrições personalizadas e funções de feedback em tempo real. Embora ainda esteja em fase de pesquisa, demonstra o potencial da IA na assistência à locomoção das pessoas com deficiência visual.

ChatGPT lança nova funcionalidade 'Aprender Juntos' para impulsionar a inovação no setor educacional

O ChatGPT lançou uma nova funcionalidade chamada 'Aprender Juntos', que utiliza um método de perguntas para estimular o pensamento ativo, semelhante ao modelo Google LearnLM. Essa funcionalidade pode evoluir para grupos de estudo interativos com múltiplos usuários e está disponível atualmente apenas para alguns assinantes. Como ferramenta educacional, o ChatGPT é amplamente utilizado no planejamento de cursos e orientação de estudos. A nova funcionalidade pode padronizar seu uso e reduzir práticas acadêmicas desonestas. Embora o escopo exato de disponibilidade ainda não esteja definido, isso marca uma exploração inovadora da inteligência artificial no setor educacional e pode mudar o modo tradicional de interação no ensino.

Microsoft lança Deep Research: Pesquisa automatizada para apoiar pesquisa e análise comercial

A Microsoft lançou a nova serviço Deep Research, versão prévia pública do Azure AI Foundry, que é um assistente de pesquisa semelhante a um agente da OpenAI. Ele pode decompor tarefas complexas automaticamente, realizar pesquisas e validações em múltiplas etapas por meio do Bing e do modelo GPT, gerando relatórios de pesquisa auditáveis. Este serviço é aplicável em áreas como acadêmico, financeiro e médico, suporta integração via API e aumenta significativamente a eficiência da pesquisa. O acesso já está aberto, os desenvolvedores podem integrar esta capacidade automatizada em seus próprios aplicativos.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

FLUX.1: O novo modelo de IA de pintura mais poderoso, tutorial de implantação local!

站长素材

Implementação Local

Resultado da Geração de Imagens

Conclusão

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Quebrando o tradicional, a empresa de tecnologia de módulo conquista finanças de milhões e impulsiona uma nova era para sensores táteis multimodais!

Maçã e Universidade da Columbia desenvolvem juntas um sistema de IA SceneScout para ajudar na navegação de cenas de rua por pessoas cegas

Executivo da Xbox sugere uso de IA para lidar com emoções causadas por demissões, gerando controvérsia

O Google lança a ferramenta de código aberto MCP Toolbox for Databases: 10 linhas de código para desbloquear as infinitas possibilidades da IA e dos bancos de dados

Transforme em alta definição com um toque! A Universidade Politécnica de Hong Kong se une à OPPO para abrir o DLoRAL, trazendo uma revolução na resolução de vídeo

DLoRAL: Framework de Alta Definição para Vídeos de Código Aberto, Desenvolvido pela Universidade Politécnica de Hong Kong e OPPO

O WebSailor, um agente de inteligência de rede da Alibaba Cloud, supera vários modelos proprietários

A Apple desenvolve um agente de IA para ajudar pessoas cegas a explorar imagens de ruas virtualmente

ChatGPT lança nova funcionalidade 'Aprender Juntos' para impulsionar a inovação no setor educacional

Microsoft lança Deep Research: Pesquisa automatizada para apoiar pesquisa e análise comercial

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

FLUX.1: O novo modelo de IA de pintura mais poderoso, tutorial de implantação local!

站长素材

Implementação Local

Resultado da Geração de Imagens

Conclusão

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Quebrando o tradicional, a empresa de tecnologia de módulo conquista finanças de milhões e impulsiona uma nova era para sensores táteis multimodais!

Maçã e Universidade da Columbia desenvolvem juntas um sistema de IA SceneScout para ajudar na navegação de cenas de rua por pessoas cegas

Executivo da Xbox sugere uso de IA para lidar com emoções causadas por demissões, gerando controvérsia

O Google lança a ferramenta de código aberto MCP Toolbox for Databases: 10 linhas de código para desbloquear as infinitas possibilidades da IA e dos bancos de dados

Transforme em alta definição com um toque! A Universidade Politécnica de Hong Kong se une à OPPO para abrir o DLoRAL, trazendo uma revolução na resolução de vídeo

DLoRAL: Framework de Alta Definição para Vídeos de Código Aberto, Desenvolvido pela Universidade Politécnica de Hong Kong e OPPO

O WebSailor, um agente de inteligência de rede da Alibaba Cloud, supera vários modelos proprietários

A Apple desenvolve um agente de IA para ajudar pessoas cegas a explorar imagens de ruas virtualmente

​ChatGPT lança nova funcionalidade 'Aprender Juntos' para impulsionar a inovação no setor educacional

Microsoft lança Deep Research: Pesquisa automatizada para apoiar pesquisa e análise comercial

ChatGPT lança nova funcionalidade 'Aprender Juntos' para impulsionar a inovação no setor educacional