CFG-Zero-star: 이미지 및 동영상 생성 품질을 개선하는 오픈 소스 도구

908 0

일반 소개

CFG-Zero-star는 웨이첸 팬과 난양공과대학교의 S-Lab 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 스트림 매칭 모델에서 분류기 무료 안내(CFG) 기술을 개선하여 안내 전략과 제로 초기화 방법을 최적화함으로써 이미지 및 비디오 생성 품질을 향상시키는 데 중점을 둡니다. 이 도구는 텍스트 대 이미지 및 텍스트 대 비디오 생성 작업을 모두 지원하며, Stable Diffusion 3, SD3.5, Wan-2.1 및 기타 모델에 적용할 수 있습니다. 이 코드는 완전히 공개되어 있으며 Apache-2.0 라이선스를 기반으로 하므로 학술 연구 및 상업적 사용이 가능합니다. 이 프로젝트는 개발자, 연구자 또는 AI 애호가를 위한 온라인 데모와 자세한 설명서를 제공합니다.

기능 목록

CFG 기술 개선: 분류기 무료 부트스트래핑을 최적화하여 생성된 콘텐츠와 텍스트 매칭의 품질을 개선합니다.
이미지 생성 지원: 텍스트 기반의 고품질 이미지 생성, Stable Diffusion 3 및 SD3.5와 호환됩니다.
동영상 생성 지원: 동적 동영상 생성, Wan-2.1 및 기타 동영상 모델에 맞게 조정합니다.
제로 초기화 최적화: 스트림 매칭 모델의 샘플 품질을 개선하기 위해 생성 초기에 예측을 제로화합니다.
오픈 소스 코드: 전체 코드가 제공되며 사용자는 자유롭게 다운로드, 수정 또는 기여할 수 있습니다.
Gradio 데모 인터페이스: 내장된 온라인 테스트 도구로 복잡한 구성이 필요하지 않습니다.
동적 매개변수 조정: 다양한 요구에 맞게 안내 강도와 추론 단계 수를 조정할 수 있도록 지원합니다.
통합 타사 지원: ComfyUI-KJNodes 및 Wan2.1GP 확장 지원.

도움말 사용

CFG-Zero-star는 사용자가 직접 환경을 구성하고 코드를 실행해야 하는 GitHub의 오픈 소스 프로젝트입니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 가이드입니다.

설치 프로세스

가상 환경 만들기
- Anaconda를 설치합니다(설치하지 않은 경우 https://www.anaconda.com/ 에서 다운로드).
- 터미널에서 다음 명령을 실행하여 환경을 만듭니다:
```
conda create -n CFG_Zero_Star python=3.10
```
- 환경을 활성화합니다:
```
conda activate CFG_Zero_Star
```
PyTorch 설치
- 공식 권장 버전은 CUDA 12.4이며, 사용 중인 GPU CUDA 버전에 따라 PyTorch를 설치하세요:
```
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
```
- CUDA 버전 호환성을 확인하려면 https://docs.nvidia.com/deploy/cuda-compatibility/ 을 참조하세요.
- GPU가 없는 사용자는 CPU 버전을 설치할 수 있습니다:
```
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
```
프로젝트 코드 다운로드
- Git으로 리포지토리를 복제합니다:
```
git clone https://github.com/WeichenFan/CFG-Zero-star.git
```
- 카탈로그로 이동합니다:
```
cd CFG-Zero-star
```
종속성 설치
- 명령을 실행하여 필요한 라이브러리를 설치합니다:
```
pip install -r requirements.txt
```
- 부족한 경우 requirements.txt를 클릭하고 핵심 종속성을 수동으로 설치합니다:
```
pip install torch diffusers gradio numpy imageio
```
모델 파일 준비하기
- https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers 에서 스테이블 디퓨전 3 또는 SD3.5 모델 가중치를 다운로드하세요.
- 프로젝트 디렉토리에 모델 파일을 배치하거나 코드에 경로를 지정합니다.

주요 기능의 작동

CFG-Zero-star의 핵심 기능은 이미지와 동영상을 생성하는 것입니다. 정확한 단계는 다음과 같습니다.

이미지 생성

구성 매개변수
- 쇼(티켓) demo.py를 클릭하고 큐 단어를 설정합니다:
```
prompt = "一片星空下的森林"
```
- CFG-제로 스타 최적화를 활성화합니다:
```
use_cfg_zero_star = True
```
세대 실행
- 터미널에 입력합니다:
```
python demo.py
```
- 생성된 이미지가 표시되거나 지정된 경로에 저장됩니다.
조정 매개변수
- guidance_scale텍스트 스티어링의 강도를 조절하며, 기본값은 4.0으로 1~20까지 설정할 수 있습니다.
- num_inference_steps추론 단계(기본값 28개)를 늘리면 품질이 향상됩니다.

비디오 생성

모델 선택

존재 demo.py 설정합니다:

model_name = "wan-t2v"
prompt = "一条河流穿过山谷"

세대 실행
- 구현:
```
python demo.py
```
- MP4 형식으로 저장된 동영상, 기본 경로 generated_videos/{seed}_CFG-Zero-Star.mp4.
조정 매개변수
- height 노래로 응답 width해상도를 설정합니다(기본값 480x832).
- num_frames프레임, 기본값 81.
- fps프레임 속도, 기본값 16.

Gradio 데모

실행 인터페이스
- 실행 중입니다:
```
python demo.py
```
- 웹 브라우저에서 http://127.0.0.1:7860 을 방문하세요.
절차
- 프롬프트 단어를 입력하고 모델(SD3, SD3.5 또는 Wan-2.1)을 선택합니다.
- 틱 Use CFG Zero Star를 클릭하고 매개변수를 조정한 후 제출합니다.
- 결과가 인터페이스에 표시됩니다.

타사 도구 통합

ComfyUI-KJNodes
- https://github.com/kijai/ComfyUI-KJNodes 을 다운로드하고 설치 지침에 따라 설치하세요.
- 존재 ComfyUI CFG-Zero-star 노드를 로드합니다.
Wan2.1GP
- https://github.com/deepbeepmeep/Wan2GP 을 다운로드하고 사용하도록 구성합니다.

주의

세대는 계산 집약적이며 최소 8GB의 RAM이 장착된 NVIDIA GPU가 권장됩니다.
처음 실행하려면 모델을 다운로드해야 하므로 인터넷 연결을 열어 두세요.
이 프로젝트는 음란물, 폭력물 등의 콘텐츠 생성을 금지하는 Apache-2.0 라이선스를 따릅니다.

이 단계를 통해 CFG-Zero-star로 고품질 이미지와 동영상을 생성할 수 있습니다. 작동하려면 특정 기술 기반이 필요하지만 문서와 데모 인터페이스를 통해 사용의 문턱을 낮췄습니다.

애플리케이션 시나리오

학술 연구
연구자들은 이를 사용해 스트림 매칭 모델의 효과를 테스트하고 컴퓨터 비전 분야에 적용할 수 있는 CFG 및 제로 초기화 개선 사항을 분석할 수 있습니다.
콘텐츠 제작
크리에이터는 이 텍스트를 사용하여 아트 디자인이나 짧은 동영상 클립에 '날아다니는 용'과 같은 이미지 또는 동영상을 생성할 수 있습니다.
모델 개발
개발자는 이 도구를 사용하여 생성 모델을 최적화하고 파라미터를 디버그하여 생성 품질을 개선할 수 있습니다.

QA

CFG-Zero-star는 어떤 문제를 해결하나요?
스트림 매칭 모델에서 CFG 기술을 최적화하고 생성된 이미지와 비디오의 품질과 텍스트 매칭을 개선합니다.
어떤 모델이 지원되나요?
Stable Diffusion 3, SD3.5 및 Wan-2.1과 같은 모델이 지원됩니다.
제로 초기화의 의미는 무엇인가요?
생성 초기 단계에서 예측을 제로화하면 학습이 덜 된 모델이 샘플 품질을 개선하는 데 도움이 됩니다.
모델의 훈련이 부족한지 어떻게 알 수 있나요?
제로 초기화를 활성화하여 효과가 크게 개선되면 모델이 완전히 학습되지 않았을 수 있음을 나타냅니다.