Como treinar um modelo LoRA para Stable Diffusion

O treinamento de modelos LoRA (Low-Rank Adaptation) permite personalizar o Stable Diffusion com estilos específicos ou conceitos únicos usando apenas algumas dezenas de imagens. Esta técnica oferece resultados profissionais mantendo baixo uso de memória e tempo de treino reduzido.

  1. Instalar o ambiente de treino. Clone o repositório kohya_ss executando 'git clone https://github.com/bmaltais/kohya_ss.git' no terminal. Navegue até a pasta com 'cd kohya_ss' e execute './setup.sh' no Linux/Mac ou 'setup.bat' no Windows. Aguarde a instalação completa das dependências Python e CUDA.
  2. Preparar o conjunto de imagens. Crie uma pasta 'dataset' e organize suas imagens em subpastas numeradas como '10_conceito' onde 10 é o número de repetições. Use 15-30 imagens de alta qualidade (512x512 ou 1024x1024 pixels) do conceito que deseja treinar. Renomeie cada imagem para incluir palavras-chave descritivas.
  3. Configurar os parâmetros de treino. Abra a interface web executando 'python kohya_gui.py' e acesse http://localhost:7860. Configure Learning Rate para 1e-4, Batch Size para 1-2 (dependendo da VRAM), Epochs para 10-20, e Network Rank para 32-128. Selecione o modelo base (SD 1.5 ou SDXL) compatível com seu objetivo.
  4. Gerar legendas automáticas. Na aba 'Utilities' selecione 'Caption images' e escolha seu modelo de caption preferido (BLIP ou WD14). Configure o threshold para 0.35 e execute sobre sua pasta de dataset. Revise manualmente cada arquivo .txt gerado para garantir descrições precisas das imagens.
  5. Executar o processo de treino. Na aba principal configure o caminho para seu dataset, defina o nome de saída do modelo LoRA e clique em 'Start Training'. Monitor o progresso através dos logs de loss que devem diminuir gradualmente. O treino completo leva 30-60 minutos dependendo do hardware.
  6. Testar o modelo treinado. Copie o arquivo .safetensors gerado para a pasta 'models/Lora' do seu ambiente Stable Diffusion. Carregue o modelo usando a sintaxe '<lora:nome_modelo:0.7>' no prompt e teste com diferentes pesos entre 0.5-1.0. Gere imagens de teste para validar a qualidade do treino.

Related

  • Como usar IA para transcrever reuniões
  • Como usar IA para traduzir voz em tempo real
  • Como criar narração com IA para audiolivros
  • Como criar narração com IA para vídeos do YouTube
  • Como usar o Adobe Podcast AI para limpar áudio
  • Como editar áudio com IA usando o Descript