CFG-Zero-star : un outil open source pour améliorer la qualité de la génération d'images et de vidéos

Derniers outils d'IAPosté il y a 4 mois Sharenet.ai
901 0
吐司AI

Introduction générale

CFG-Zero-star est un projet open source développé par Weichen Fan et l'équipe du S-Lab de l'université technologique de Nanyang. Il se concentre sur l'amélioration de la technique Classifier Free Guidance (CFG) dans les modèles de correspondance de flux afin d'améliorer la qualité de la génération d'images et de vidéos en optimisant la stratégie de guidage et la méthode d'initialisation zéro. Cet outil prend en charge les tâches de génération de texte à image et de texte à vidéo, et peut être adapté à Stable Diffusion 3, SD3.5, Wan-2.1 et à d'autres modèles. Le code est entièrement ouvert et basé sur la licence Apache-2.0, permettant la recherche universitaire et l'utilisation commerciale. Le projet fournit des démonstrations en ligne et une documentation détaillée pour les développeurs, les chercheurs ou les passionnés d'IA.

CFG-Zero-star:提升图像和视频生成质量的开源工具

 

Liste des fonctions

  • Amélioration de la technique CFG : optimisation du bootstrapping sans classificateur pour améliorer la qualité du contenu généré et la concordance des textes.
  • Prise en charge de la génération d'images : génération textuelle d'images de haute qualité, compatible avec Stable Diffusion 3 et SD3.5.
  • Prise en charge de la génération vidéo : génération de vidéos dynamiques, adaptation au modèle Wan-2.1 et à d'autres modèles vidéo.
  • Optimisation de l'initialisation zéro : mise à zéro de la prédiction au début de la génération afin d'améliorer la qualité de l'échantillon du modèle de correspondance des flux.
  • Code source ouvert : le code complet est fourni et les utilisateurs sont libres de le télécharger, de le modifier ou d'y contribuer.
  • Interface de démonstration Gradio : outil de test en ligne intégré, aucune configuration complexe n'est requise.
  • Ajustement dynamique des paramètres : permet d'ajuster l'intensité du guidage et le nombre d'étapes d'inférence pour répondre à différents besoins.
  • Support tiers intégré : Support pour ComfyUI-KJNodes et extensions Wan2.1GP.

 

Utiliser l'aide

CFG-Zero-star est un projet open source sur GitHub qui nécessite que les utilisateurs configurent leur propre environnement et exécutent le code. Vous trouverez ci-dessous un guide d'installation et d'utilisation détaillé pour vous aider à démarrer rapidement.

Processus d'installation

  1. Créer un environnement virtuel
    • Installez Anaconda (si ce n'est pas le cas, téléchargez-le sur https://www.anaconda.com/).
    • Exécutez la commande suivante dans le terminal pour créer l'environnement :
      conda create -n CFG_Zero_Star python=3.10
      
    • Activer l'environnement :
      conda activate CFG_Zero_Star
      
  2. Installation de PyTorch
    • Installez PyTorch en fonction de la version CUDA de votre GPU. La recommandation officielle est CUDA 12.4 :
      conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
      
    • Vérifiez la compatibilité de la version CUDA, voir https://docs.nvidia.com/deploy/cuda-compatibility/.
    • Les utilisateurs ne disposant pas d'un GPU peuvent installer la version CPU :
      conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
      
  3. Télécharger le code du projet
    • Cloner le dépôt avec Git :
      git clone https://github.com/WeichenFan/CFG-Zero-star.git
      
    • Accéder au catalogue :
      cd CFG-Zero-star
      
  4. Installation des dépendances
    • Exécutez la commande pour installer les bibliothèques requises :
      pip install -r requirements.txt
      
    • S'il y a un manque de requirements.txt, installez manuellement les dépendances de base :
      pip install torch diffusers gradio numpy imageio
      
  5. Préparation du fichier modèle
    • Téléchargez les poids des modèles Stable Diffusion 3 ou SD3.5 à partir de https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers.
    • Placez le fichier modèle dans le répertoire du projet ou indiquez le chemin d'accès dans le code.

Fonctionnement des principales fonctions

La fonction principale de CFG-Zero-star est de générer des images et des vidéos. Voici les étapes exactes.

Générer des images

  1. Paramètres de configuration
    • spectacle (un billet) demo.py, définir le mot repère :
      prompt = "一片星空下的森林"
      
    • Activer l'optimisation CFG-Zero-star :
      use_cfg_zero_star = True
      
  2. Génération de courses
    • Saisissez-le dans le terminal :
      python demo.py
      
    • L'image générée est affichée ou enregistrée dans le chemin spécifié.
  3. Paramètres de réglage
    • guidance_scale: Contrôle l'intensité de la direction du texte, par défaut 4.0, réglable de 1 à 20.
    • num_inference_stepsLes étapes du raisonnement, par défaut 28, augmentent afin d'améliorer la qualité.

Générer une vidéo

  1. Sélectionner le modèle
    • existent demo.py Se dérouler dans :
      model_name = "wan-t2v"
      prompt = "一条河流穿过山谷"
      
  2. Génération de courses
    • Mise en œuvre :
      python demo.py
      
    • Vidéo enregistrée au format MP4, chemin par défaut generated_videos/{seed}_CFG-Zero-Star.mp4.
  3. Paramètres de réglage
    • height répondre en chantant width: Définit la résolution, par défaut 480x832.
    • num_frames: Frames, valeur par défaut 81.
    • fps: Fréquence d'images, par défaut 16.

Démonstration avec Gradio

  1. Interface de lancement
    • La course à pied :
      python demo.py
      
    • Visitez http://127.0.0.1:7860 sur votre navigateur web.
  2. procédure
    • Saisissez le mot-clé et sélectionnez le modèle (SD3, SD3.5 ou Wan-2.1).
    • tique Use CFG Zero Star, ajuster les paramètres et soumettre.
    • Le résultat s'affiche dans l'interface.

Intégration d'outils tiers

  • ComfyUI-KJNodes
    • Téléchargez https://github.com/kijai/ComfyUI-KJNodes et suivez les instructions d'installation.
    • existent ComfyUI Charger le nœud CFG-Zéro-étoile dans le fichier
  • Wan2.1GP
    • Téléchargez https://github.com/deepbeepmeep/Wan2GP et configurez-le pour l'utiliser.

mise en garde

  • La génération est un calcul intensif et il est recommandé d'utiliser un GPU NVIDIA avec au moins 8 Go de RAM.
  • Le téléchargement du modèle est nécessaire pour la première exécution, gardez votre connexion internet ouverte.
  • Le projet suit la licence Apache-2.0, qui interdit la génération de contenu pornographique, violent, etc.

Grâce à ces étapes, vous pouvez générer des images et des vidéos de haute qualité avec CFG-Zero-star. Son fonctionnement nécessite une certaine base technique, mais la documentation et l'interface de démonstration abaissent le seuil d'utilisation.

 

scénario d'application

  1. recherche universitaire
    Les chercheurs peuvent l'utiliser pour tester l'efficacité des modèles de correspondance de flux et analyser les améliorations du CFG et de l'initialisation zéro, applicables au domaine de la vision par ordinateur.
  2. création de contenu
    Les créateurs peuvent utiliser le texte pour générer des images ou des vidéos, telles que "Flying Dragon", à utiliser dans des œuvres d'art ou de courts clips vidéo.
  3. développement de modèles
    Les développeurs peuvent utiliser cet outil pour optimiser leurs modèles de génération et les paramètres de débogage afin d'améliorer la qualité de la génération.

 

QA

  1. Quel problème CFG-Zero-star résout-il ?
    Il optimise la technique CFG dans le modèle de correspondance de flux et améliore la qualité et la correspondance de texte des images et des vidéos générées.
  2. Quels sont les modèles pris en charge ?
    Des modèles tels que Stable Diffusion 3, SD3.5 et Wan-2.1 sont pris en charge.
  3. Quel est l'intérêt de l'initialisation zéro ?
    La suppression des prédictions dans les premières étapes de la génération permet aux modèles sous-entraînés d'améliorer la qualité de l'échantillon.
  4. Comment savoir si un modèle est sous-entraîné ?
    Si l'effet est considérablement amélioré en activant l'initialisation zéro, cela indique que le modèle n'est peut-être pas complètement formé.
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...