Wan 2.1 기반 비디오 생성 기능을 제공하는 ComfyUI용 플러그인

1.1K 0

일반 소개

ComfyUI-WanVideoWrapper는 개발자 kijai가 만든 오픈 소스 플러그인으로, 다음을 위해 설계되었습니다. ComfyUI 플랫폼 디자인. WanVideo의 Wan2.1 모델은 강력한 동영상 생성 및 처리 기능을 제공합니다. 사용자는 이미지에서 비디오로(I2V), 텍스트에서 비디오로(T2V), 비디오에서 비디오로(V2V) 변환하는 데 사용할 수 있습니다. 이 플러그인은 효율적인 도구가 필요한 AI 애호가, 동영상 제작자 및 사용자에게 적합합니다. 이 프로젝트는 GitHub에서 호스팅되며, 2025년 3월 현재 1300개 이상의 별과 활발한 커뮤니티를 보유하고 있습니다. 아직 '작업 중'으로 표시되어 있으며 기능이 개선되고 있습니다.

기능 목록

이미지-비디오(I2V)사용자 지정 프레임 속도 및 해상도를 지원하여 정지 이미지를 모션 비디오로 변환합니다.
텍스트 비디오 변환(T2V)조정 가능한 생성 매개변수를 사용하여 텍스트 설명을 기반으로 동영상을 생성합니다.
비디오 투 비디오(V2V)기존 동영상을 향상하거나 스타일을 변경하여 액션의 흐름을 유지합니다.
Wan2.1 모델 지원Wan2.1 사용 트랜스포머 및 VAE 모델과 호환되며 ComfyUI 네이티브 코딩 모듈과도 호환됩니다.
긴 동영상 생성창 크기 및 겹침 설정을 통해 1000프레임 이상의 동영상 생성을 지원합니다.
성능 최적화생성 속도 향상을 위해 torch.compile을 지원합니다.

도움말 사용

설치 프로세스

컴피유완비디오랩퍼를 사용하려면 먼저 컴피유를 설치하고 플러그인을 추가해야 합니다. 자세한 단계는 다음과 같습니다:

ComfyUI 설치
- GitHub(https://github.com/comfyanonymous/ComfyUI)에서 ComfyUI 메인 프로그램을 다운로드하세요.
- 로컬에서 압축을 풉니다(예 C:\ComfyUI.
- 존재 ComfyUI_windows_portable 파일 실행 run_nvidia_gpu.bat 시작(Windows 사용자)을 클릭합니다.
WanVideoWrapper 플러그인을 설치합니다.
- ComfyUI 루트 디렉토리로 이동합니다. custom_nodes 폴더.
- Git 명령을 사용하여 플러그인을 복제합니다:
```
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
```
- 플러그인 디렉토리로 이동합니다:
```
cd ComfyUI-WanVideoWrapper
```
- 종속성을 설치합니다:
```
python_embeded\python.exe -m pip install -r requirements.txt
```
  - 휴대용 버전을 사용하는 경우 ComfyUI_windows_portable 폴더를 실행합니다:
```
python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
```
Wan2.1 모델 다운로드
- 허깅 페이스 모델 리포지토리(https://huggingface.co/Kijai/WanVideo_comfy)를 방문하세요.
- 필요한 서류를 다운로드하세요:
  - 텍스트 인코더를 ComfyUI/models/text_encoders.
  - 트랜스포머 모델은 ComfyUI/models/diffusion_models.
  - VAE 모델 배치 ComfyUI/models/vae.
- 원래 모델은 ComfyUI의 자체 텍스트 인코더 및 CLIP Vision으로 대체할 수도 있습니다.
ComfyUI 시작
- 설치가 완료되면 ComfyUI를 다시 시작하면 플러그인 노드가 인터페이스에 자동으로 로드됩니다.

주요 기능

1. 이미지에서 동영상으로(I2V)

예비Wan2.1 모델과 VAE가 로드되었는지 확인합니다.
절차:
1. ComfyUI 인터페이스 추가하기 WanVideoModelLoader 노드에서 Wan2.1 I2V 모델을 선택합니다.
2. 증가 WanVideoVAELoader 노드를 사용하여 VAE 모델을 로드합니다.
3. 비용 또는 지출 Load Image 노드를 사용하여 이미지를 업로드합니다.
4. 증가 WanVideoSampler 노드에서 프레임 수(예: 81프레임), 해상도(예: 512x512)를 설정합니다.
5. 그라우트 VHS_VideoCombine 노드에서 프레임 속도(예: 16fps)와 출력 형식(예: MP4)을 설정합니다.
6. "생성"을 클릭하면 결과가 다음 주소로 저장됩니다. ComfyUI/output 폴더.
다음 사항에 유의하십시오.공식 테스트 결과 512x512x81 프레임은 약 16GB의 비디오 메모리를 차지하며, 해상도를 낮추면 메모리 사용량을 줄일 수 있습니다.

2. 텍스트-비디오(T2V)

예비:: 텍스트 설명(예: "밤의 도시 거리")을 준비합니다.
절차:
1. 증가 LoadWanVideoT5TextEncoder 노드(또는 ComfyUI 네이티브 CLIP 모델)를 사용합니다.
2. 증가 WanVideoTextEncode 노드에 텍스트를 입력합니다.
3. 그라우트 WanVideoModelLoader 노래로 응답 WanVideoSampler 노드에서 프레임 수(예: 256), 해상도(예: 720p)를 설정합니다.
4. 증가 WanVideoDecode 노드 디코딩.
5. 비용 또는 지출 VHS_VideoCombine 노드는 동영상을 출력합니다.
6. "생성"을 클릭하면 하드웨어에 따라 생성 시간이 달라집니다.
STH에 주목하세요.공식 예시에서 1.3B T2V 모델은 5GB RAM으로 10분에 1025프레임(RTX 5090)을 생성합니다.

3. 비디오 대 비디오(V2V)

예비짧은 동영상(MP4 형식)을 준비합니다.
절차:
1. 비용 또는 지출 VHS_LoadVideo 노드가 동영상을 로드합니다.
2. 증가 WanVideoEncode 노드 인코딩된 동영상.
3. 그라우트 WanVideoSampler 노드를 사용하여 향상 매개변수를 조정할 수 있습니다.
4. 증가 WanVideoDecode 노드 디코딩.
5. 비용 또는 지출 VHS_VideoCombine 노드는 결과를 출력합니다.
6. '생성'을 클릭하여 개선 사항을 완료합니다.
일반적인 예14B T2V 모델로 V2V를 공식 테스트한 결과 더 나은 결과를 얻었습니다.

4. 긴 형식의 동영상 생성

절차:
1. 존재 WanVideoSampler 노드는 프레임 수를 설정합니다(예: 1025 프레임).
2. 창 크기(예: 81프레임)와 오버랩 값(예: 16)을 설정하여 일관된 움직임을 보장합니다.
3. 다른 단계는 T2V 또는 I2V의 경우와 동일합니다.
하드웨어 요구 사항높은 비디오 메모리 GPU(예: 24GB)가 권장되며, 저사양 컴퓨터에서는 프레임 속도가 저하될 수 있습니다.