CFG-Zero-star: 이미지 및 동영상 생성 품질을 개선하는 오픈 소스 도구
일반 소개
CFG-Zero-star는 웨이첸 팬과 난양공과대학교의 S-Lab 팀이 개발한 오픈 소스 프로젝트입니다. 이 프로젝트는 스트림 매칭 모델에서 분류기 무료 안내(CFG) 기술을 개선하여 안내 전략과 제로 초기화 방법을 최적화함으로써 이미지 및 비디오 생성 품질을 향상시키는 데 중점을 둡니다. 이 도구는 텍스트 대 이미지 및 텍스트 대 비디오 생성 작업을 모두 지원하며, Stable Diffusion 3, SD3.5, Wan-2.1 및 기타 모델에 적용할 수 있습니다. 이 코드는 완전히 공개되어 있으며 Apache-2.0 라이선스를 기반으로 하므로 학술 연구 및 상업적 사용이 가능합니다. 이 프로젝트는 개발자, 연구자 또는 AI 애호가를 위한 온라인 데모와 자세한 설명서를 제공합니다.

기능 목록
- CFG 기술 개선: 분류기 무료 부트스트래핑을 최적화하여 생성된 콘텐츠와 텍스트 매칭의 품질을 개선합니다.
- 이미지 생성 지원: 텍스트 기반의 고품질 이미지 생성, Stable Diffusion 3 및 SD3.5와 호환됩니다.
- 동영상 생성 지원: 동적 동영상 생성, Wan-2.1 및 기타 동영상 모델에 맞게 조정합니다.
- 제로 초기화 최적화: 스트림 매칭 모델의 샘플 품질을 개선하기 위해 생성 초기에 예측을 제로화합니다.
- 오픈 소스 코드: 전체 코드가 제공되며 사용자는 자유롭게 다운로드, 수정 또는 기여할 수 있습니다.
- Gradio 데모 인터페이스: 내장된 온라인 테스트 도구로 복잡한 구성이 필요하지 않습니다.
- 동적 매개변수 조정: 다양한 요구에 맞게 안내 강도와 추론 단계 수를 조정할 수 있도록 지원합니다.
- 통합 타사 지원: ComfyUI-KJNodes 및 Wan2.1GP 확장 지원.
도움말 사용
CFG-Zero-star는 사용자가 직접 환경을 구성하고 코드를 실행해야 하는 GitHub의 오픈 소스 프로젝트입니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 설치 및 사용 가이드입니다.
설치 프로세스
- 가상 환경 만들기
- Anaconda를 설치합니다(설치하지 않은 경우 https://www.anaconda.com/ 에서 다운로드).
- 터미널에서 다음 명령을 실행하여 환경을 만듭니다:
conda create -n CFG_Zero_Star python=3.10
- 환경을 활성화합니다:
conda activate CFG_Zero_Star
- PyTorch 설치
- 공식 권장 버전은 CUDA 12.4이며, 사용 중인 GPU CUDA 버전에 따라 PyTorch를 설치하세요:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=12.4 -c pytorch -c nvidia
- CUDA 버전 호환성을 확인하려면 https://docs.nvidia.com/deploy/cuda-compatibility/ 을 참조하세요.
- GPU가 없는 사용자는 CPU 버전을 설치할 수 있습니다:
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 -c pytorch
- 공식 권장 버전은 CUDA 12.4이며, 사용 중인 GPU CUDA 버전에 따라 PyTorch를 설치하세요:
- 프로젝트 코드 다운로드
- Git으로 리포지토리를 복제합니다:
git clone https://github.com/WeichenFan/CFG-Zero-star.git
- 카탈로그로 이동합니다:
cd CFG-Zero-star
- Git으로 리포지토리를 복제합니다:
- 종속성 설치
- 명령을 실행하여 필요한 라이브러리를 설치합니다:
pip install -r requirements.txt
- 부족한 경우
requirements.txt
를 클릭하고 핵심 종속성을 수동으로 설치합니다:pip install torch diffusers gradio numpy imageio
- 명령을 실행하여 필요한 라이브러리를 설치합니다:
- 모델 파일 준비하기
- https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers 에서 스테이블 디퓨전 3 또는 SD3.5 모델 가중치를 다운로드하세요.
- 프로젝트 디렉토리에 모델 파일을 배치하거나 코드에 경로를 지정합니다.
주요 기능의 작동
CFG-Zero-star의 핵심 기능은 이미지와 동영상을 생성하는 것입니다. 정확한 단계는 다음과 같습니다.
이미지 생성
- 구성 매개변수
- 쇼(티켓)
demo.py
를 클릭하고 큐 단어를 설정합니다:prompt = "一片星空下的森林"
- CFG-제로 스타 최적화를 활성화합니다:
use_cfg_zero_star = True
- 쇼(티켓)
- 세대 실행
- 터미널에 입력합니다:
python demo.py
- 생성된 이미지가 표시되거나 지정된 경로에 저장됩니다.
- 터미널에 입력합니다:
- 조정 매개변수
guidance_scale
텍스트 스티어링의 강도를 조절하며, 기본값은 4.0으로 1~20까지 설정할 수 있습니다.num_inference_steps
추론 단계(기본값 28개)를 늘리면 품질이 향상됩니다.
비디오 생성
- 모델 선택
- 존재
demo.py
설정합니다:model_name = "wan-t2v" prompt = "一条河流穿过山谷"
- 존재
- 세대 실행
- 구현:
python demo.py
- MP4 형식으로 저장된 동영상, 기본 경로
generated_videos/{seed}_CFG-Zero-Star.mp4
.
- 구현:
- 조정 매개변수
height
노래로 응답width
해상도를 설정합니다(기본값 480x832).num_frames
프레임, 기본값 81.fps
프레임 속도, 기본값 16.
Gradio 데모
- 실행 인터페이스
- 실행 중입니다:
python demo.py
- 웹 브라우저에서 http://127.0.0.1:7860 을 방문하세요.
- 실행 중입니다:
- 절차
- 프롬프트 단어를 입력하고 모델(SD3, SD3.5 또는 Wan-2.1)을 선택합니다.
- 틱
Use CFG Zero Star
를 클릭하고 매개변수를 조정한 후 제출합니다. - 결과가 인터페이스에 표시됩니다.
타사 도구 통합
- ComfyUI-KJNodes
- https://github.com/kijai/ComfyUI-KJNodes 을 다운로드하고 설치 지침에 따라 설치하세요.
- 존재 ComfyUI CFG-Zero-star 노드를 로드합니다.
- Wan2.1GP
- https://github.com/deepbeepmeep/Wan2GP 을 다운로드하고 사용하도록 구성합니다.
주의
- 세대는 계산 집약적이며 최소 8GB의 RAM이 장착된 NVIDIA GPU가 권장됩니다.
- 처음 실행하려면 모델을 다운로드해야 하므로 인터넷 연결을 열어 두세요.
- 이 프로젝트는 음란물, 폭력물 등의 콘텐츠 생성을 금지하는 Apache-2.0 라이선스를 따릅니다.
이 단계를 통해 CFG-Zero-star로 고품질 이미지와 동영상을 생성할 수 있습니다. 작동하려면 특정 기술 기반이 필요하지만 문서와 데모 인터페이스를 통해 사용의 문턱을 낮췄습니다.
애플리케이션 시나리오
- 학술 연구
연구자들은 이를 사용해 스트림 매칭 모델의 효과를 테스트하고 컴퓨터 비전 분야에 적용할 수 있는 CFG 및 제로 초기화 개선 사항을 분석할 수 있습니다. - 콘텐츠 제작
크리에이터는 이 텍스트를 사용하여 아트 디자인이나 짧은 동영상 클립에 '날아다니는 용'과 같은 이미지 또는 동영상을 생성할 수 있습니다. - 모델 개발
개발자는 이 도구를 사용하여 생성 모델을 최적화하고 파라미터를 디버그하여 생성 품질을 개선할 수 있습니다.
QA
- CFG-Zero-star는 어떤 문제를 해결하나요?
스트림 매칭 모델에서 CFG 기술을 최적화하고 생성된 이미지와 비디오의 품질과 텍스트 매칭을 개선합니다. - 어떤 모델이 지원되나요?
Stable Diffusion 3, SD3.5 및 Wan-2.1과 같은 모델이 지원됩니다. - 제로 초기화의 의미는 무엇인가요?
생성 초기 단계에서 예측을 제로화하면 학습이 덜 된 모델이 샘플 품질을 개선하는 데 도움이 됩니다. - 모델의 훈련이 부족한지 어떻게 알 수 있나요?
제로 초기화를 활성화하여 효과가 크게 개선되면 모델이 완전히 학습되지 않았을 수 있음을 나타냅니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...