CFG-Zero-star: 이미지 및 동영상 생성 품질을 개선하는 오픈 소스 도구

최신 AI 도구4 개월 전에 게시 됨 Sharenet.ai
908 0
吐司AI

일반 소개

CFG-Zero-star는 웨이첸 팬과 난양공과대학교의 S-Lab 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 스트림 매칭 모델에서 분류기 무료 안내(CFG) 기술을 개선하여 안내 전략과 제로 초기화 방법을 최적화함으로써 이미지 및 비디오 생성 품질을 향상시키는 데 중점을 둡니다. 이 도구는 텍스트 대 이미지 및 텍스트 대 비디오 생성 작업을 모두 지원하며, Stable Diffusion 3, SD3.5, Wan-2.1 및 기타 모델에 적용할 수 있습니다. 이 코드는 완전히 공개되어 있으며 Apache-2.0 라이선스를 기반으로 하므로 학술 연구 및 상업적 사용이 가능합니다. 이 프로젝트는 개발자, 연구자 또는 AI 애호가를 위한 온라인 데모와 자세한 설명서를 제공합니다.

CFG-Zero-star:提升图像和视频生成质量的开源工具

 

기능 목록

  • CFG 기술 개선: 분류기 무료 부트스트래핑을 최적화하여 생성된 콘텐츠와 텍스트 매칭의 품질을 개선합니다.
  • 이미지 생성 지원: 텍스트 기반의 고품질 이미지 생성, Stable Diffusion 3 및 SD3.5와 호환됩니다.
  • 동영상 생성 지원: 동적 동영상 생성, Wan-2.1 및 기타 동영상 모델에 맞게 조정합니다.
  • 제로 초기화 최적화: 스트림 매칭 모델의 샘플 품질을 개선하기 위해 생성 초기에 예측을 제로화합니다.
  • 오픈 소스 코드: 전체 코드가 제공되며 사용자는 자유롭게 다운로드, 수정 또는 기여할 수 있습니다.
  • Gradio 데모 인터페이스: 내장된 온라인 테스트 도구로 복잡한 구성이 필요하지 않습니다.
  • 동적 매개변수 조정: 다양한 요구에 맞게 안내 강도와 추론 단계 수를 조정할 수 있도록 지원합니다.
  • 통합 타사 지원: ComfyUI-KJNodes 및 Wan2.1GP 확장 지원.

 

도움말 사용

CFG-Zero-star는 사용자가 직접 환경을 구성하고 코드를 실행해야 하는 GitHub의 오픈 소스 프로젝트입니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 가이드입니다.

설치 프로세스

  1. 가상 환경 만들기
    • Anaconda를 설치합니다(설치하지 않은 경우 https://www.anaconda.com/ 에서 다운로드).
    • 터미널에서 다음 명령을 실행하여 환경을 만듭니다:
      conda create -n CFG_Zero_Star python=3.10
      
    • 환경을 활성화합니다:
      conda activate CFG_Zero_Star
      
  2. PyTorch 설치
    • 공식 권장 버전은 CUDA 12.4이며, 사용 중인 GPU CUDA 버전에 따라 PyTorch를 설치하세요:
      conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
      
    • CUDA 버전 호환성을 확인하려면 https://docs.nvidia.com/deploy/cuda-compatibility/ 을 참조하세요.
    • GPU가 없는 사용자는 CPU 버전을 설치할 수 있습니다:
      conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
      
  3. 프로젝트 코드 다운로드
    • Git으로 리포지토리를 복제합니다:
      git clone https://github.com/WeichenFan/CFG-Zero-star.git
      
    • 카탈로그로 이동합니다:
      cd CFG-Zero-star
      
  4. 종속성 설치
    • 명령을 실행하여 필요한 라이브러리를 설치합니다:
      pip install -r requirements.txt
      
    • 부족한 경우 requirements.txt를 클릭하고 핵심 종속성을 수동으로 설치합니다:
      pip install torch diffusers gradio numpy imageio
      
  5. 모델 파일 준비하기
    • https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers 에서 스테이블 디퓨전 3 또는 SD3.5 모델 가중치를 다운로드하세요.
    • 프로젝트 디렉토리에 모델 파일을 배치하거나 코드에 경로를 지정합니다.

주요 기능의 작동

CFG-Zero-star의 핵심 기능은 이미지와 동영상을 생성하는 것입니다. 정확한 단계는 다음과 같습니다.

이미지 생성

  1. 구성 매개변수
    • 쇼(티켓) demo.py를 클릭하고 큐 단어를 설정합니다:
      prompt = "一片星空下的森林"
      
    • CFG-제로 스타 최적화를 활성화합니다:
      use_cfg_zero_star = True
      
  2. 세대 실행
    • 터미널에 입력합니다:
      python demo.py
      
    • 생성된 이미지가 표시되거나 지정된 경로에 저장됩니다.
  3. 조정 매개변수
    • guidance_scale텍스트 스티어링의 강도를 조절하며, 기본값은 4.0으로 1~20까지 설정할 수 있습니다.
    • num_inference_steps추론 단계(기본값 28개)를 늘리면 품질이 향상됩니다.

비디오 생성

  1. 모델 선택
    • 존재 demo.py 설정합니다:
      model_name = "wan-t2v"
      prompt = "一条河流穿过山谷"
      
  2. 세대 실행
    • 구현:
      python demo.py
      
    • MP4 형식으로 저장된 동영상, 기본 경로 generated_videos/{seed}_CFG-Zero-Star.mp4.
  3. 조정 매개변수
    • height 노래로 응답 width해상도를 설정합니다(기본값 480x832).
    • num_frames프레임, 기본값 81.
    • fps프레임 속도, 기본값 16.

Gradio 데모

  1. 실행 인터페이스
    • 실행 중입니다:
      python demo.py
      
    • 웹 브라우저에서 http://127.0.0.1:7860 을 방문하세요.
  2. 절차
    • 프롬프트 단어를 입력하고 모델(SD3, SD3.5 또는 Wan-2.1)을 선택합니다.
    • 틱 Use CFG Zero Star를 클릭하고 매개변수를 조정한 후 제출합니다.
    • 결과가 인터페이스에 표시됩니다.

타사 도구 통합

  • ComfyUI-KJNodes
    • https://github.com/kijai/ComfyUI-KJNodes 을 다운로드하고 설치 지침에 따라 설치하세요.
    • 존재 ComfyUI CFG-Zero-star 노드를 로드합니다.
  • Wan2.1GP
    • https://github.com/deepbeepmeep/Wan2GP 을 다운로드하고 사용하도록 구성합니다.

주의

  • 세대는 계산 집약적이며 최소 8GB의 RAM이 장착된 NVIDIA GPU가 권장됩니다.
  • 처음 실행하려면 모델을 다운로드해야 하므로 인터넷 연결을 열어 두세요.
  • 이 프로젝트는 음란물, 폭력물 등의 콘텐츠 생성을 금지하는 Apache-2.0 라이선스를 따릅니다.

이 단계를 통해 CFG-Zero-star로 고품질 이미지와 동영상을 생성할 수 있습니다. 작동하려면 특정 기술 기반이 필요하지만 문서와 데모 인터페이스를 통해 사용의 문턱을 낮췄습니다.

 

애플리케이션 시나리오

  1. 학술 연구
    연구자들은 이를 사용해 스트림 매칭 모델의 효과를 테스트하고 컴퓨터 비전 분야에 적용할 수 있는 CFG 및 제로 초기화 개선 사항을 분석할 수 있습니다.
  2. 콘텐츠 제작
    크리에이터는 이 텍스트를 사용하여 아트 디자인이나 짧은 동영상 클립에 '날아다니는 용'과 같은 이미지 또는 동영상을 생성할 수 있습니다.
  3. 모델 개발
    개발자는 이 도구를 사용하여 생성 모델을 최적화하고 파라미터를 디버그하여 생성 품질을 개선할 수 있습니다.

 

QA

  1. CFG-Zero-star는 어떤 문제를 해결하나요?
    스트림 매칭 모델에서 CFG 기술을 최적화하고 생성된 이미지와 비디오의 품질과 텍스트 매칭을 개선합니다.
  2. 어떤 모델이 지원되나요?
    Stable Diffusion 3, SD3.5 및 Wan-2.1과 같은 모델이 지원됩니다.
  3. 제로 초기화의 의미는 무엇인가요?
    생성 초기 단계에서 예측을 제로화하면 학습이 덜 된 모델이 샘플 품질을 개선하는 데 도움이 됩니다.
  4. 모델의 훈련이 부족한지 어떻게 알 수 있나요?
    제로 초기화를 활성화하여 효과가 크게 개선되면 모델이 완전히 학습되지 않았을 수 있음을 나타냅니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...