Comment entraîner un modèle LoRA pour Stable Diffusion
LoRA (Low-Rank Adaptation) permet d'entraîner des adaptations légères de Stable Diffusion sans modifier le modèle de base. Cette technique crée des fichiers de quelques mégaoctets qui ajoutent de nouveaux styles ou concepts spécifiques.
- Installez les dépendances nécessaires. Installez Python 3.10+, Git et CUDA 11.8. Clonez le dépôt kohya-ss/sd-scripts avec `git clone https://github.com/kohya-ss/sd-scripts.git`. Installez les requirements avec `pip install -r requirements.txt`. Vérifiez que PyTorch détecte votre GPU avec `torch.cuda.is_available()`.
- Préparez votre dataset d'images. Créez un dossier avec 15-50 images haute qualité (512x512 minimum) de votre sujet. Nommez le dossier `X_nomduconcept` où X est le nombre de répétitions (ex: `10_monpersonnage`). Placez ce dossier dans un répertoire `train_data`. Les images doivent être variées en poses et éclairages.
- Générez les captions automatiquement. Lancez le script de captioning avec `python finetune/make_captions.py --batch_size 4 --num_beams 1 --top_p 0.9 --max_length 75 --min_length 5 --beam_search train_data`. Cela crée des fichiers .txt pour chaque image. Éditez manuellement ces descriptions pour améliorer la précision et ajouter votre token d'activation.
- Configurez les paramètres d'entraînement. Créez un fichier de configuration JSON avec les paramètres : learning_rate à 1e-4, batch_size à 1, max_train_steps à 1000-2000, network_dim à 64, network_alpha à 32. Définissez le chemin vers votre modèle de base SD et le dossier de sortie pour le LoRA.
- Lancez l'entraînement du modèle. Exécutez `python train_network.py --config_file config.json` en surveillant les logs. L'entraînement prend 30 minutes à 2 heures selon votre GPU et dataset. Le script sauvegarde automatiquement des checkpoints à intervalles réguliers dans le dossier de sortie spécifié.
- Testez le modèle LoRA entraîné. Copiez le fichier .safetensors généré dans votre dossier models/Lora d'Automatic1111 ou ComfyUI. Activez le LoRA dans votre interface avec un poids de 0.8-1.0. Générez des images de test avec votre token d'activation pour vérifier la qualité et l'adhérence au style appris.