Step1X-Edit: 자연어 명령어로 이미지를 편집할 수 있는 오픈 소스 도구

552 0

일반 소개

Step1X-Edit는 스텝펀 AI 팀이 개발하고 GitHub에서 호스팅하는 오픈 소스 이미지 편집 프레임워크로, 멀티모달 대규모 언어 모델(Qwen-VL)과 확산 변환기(DiT)를 결합하여 사용자가 배경 변경, 개체 제거, 스타일 전환 등 간단한 자연어 명령으로 이미지를 편집할 수 있게 해줍니다. 2025년 4월 25일에 출시된 이 프로젝트의 성능은 GPT-4o와 같은 비공개 소스 모델과 비슷한 수준입니다. 쌍둥이자리 2 플래시. step1X-Edit는 모델 가중치, 추론 코드, GEdit-Bench 벤치마킹을 제공하여 다양한 편집 시나리오를 지원합니다. Apache 2.0 라이선스는 무료 사용 및 상업적 개발을 허용하여 개발자, 디자이너, 연구자들의 관심을 끌고 있습니다. 커뮤니티 지원이 활발히 이루어지고 있으며 ComfyUI 하드웨어 요구 사항을 최적화하는 플러그인 및 FP8 양자화 버전.

현재 다음에서 사용 가능 스텝 AI 무료 체험. 그러나 실제 이미지 편집 결과는 GPT-4o 및 Gemini 2 플래시와 약간 다릅니다.

기능 목록

"배경을 해변으로 변경" 또는 "사진에서 사람 제거"와 같은 이미지 편집을 위한 자연어 명령을 지원합니다.
멀티모달 대형 언어 모델(Qwen-VL)을 사용하여 이미지 및 텍스트 명령을 구문 분석하여 정밀한 편집을 생성합니다.
원본 이미지의 디테일을 유지하는 디퓨전 트랜스포머(DiT)를 기반으로 고품질 이미지를 생성합니다.
실제 사용자 명령에 따라 편집 성능을 평가할 수 있는 GEdit-Bench 벤치마킹을 제공합니다.
FP8 정량 모델을 지원하고, 하드웨어 요구 사항을 줄이며, 저메모리 GPU에 적응합니다.
ComfyUI 플러그인과의 통합으로 워크플로가 간소화되고 사용자 경험이 향상됩니다.
온라인 데모를 통해 설치 없이 편집 기능을 체험해 볼 수 있습니다.
2차 개발 및 연구를 지원하기 위한 오픈 소스 모델 가중치 및 추론 코드.

도움말 사용

설치 프로세스

Step1X-Edit를 사용하려면 환경을 설치하고 모델 가중치를 다운로드해야 합니다. 다음은 Linux 시스템(Ubuntu 20.04 이상 권장)에 적합한 세부 단계입니다:

환경 준비하기
시스템에 Python 3.10 이상이 설치되어 있는지, 그리고 CUDA 툴킷(12.1 권장)이 설치되어 있는지 확인합니다. GPU가 권장되지만(NVIDIA H800과 같은 80GB RAM이 가장 좋음), FP8 양자화 버전은 더 낮은 RAM(16GB 또는 24GB)도 지원합니다.
```
conda create -n step1x python=3.10
conda activate step1x
```

클론 창고
GitHub에서 Step1X-Edit 프로젝트 코드를 다운로드하세요:
```
git clone https://github.com/stepfun-ai/Step1X-Edit.git
cd Step1X-Edit
```
종속성 설치
PyTorch(2.3.1 또는 2.5.1 권장) 및 관련 라이브러리를 설치합니다:
```
pip install torch==2.3.1 torchvision --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
```
플래시 주의 설치(선택 사항, 빠른 추론을 위해):
```
pip install flash-attn --no-build-isolation
```
플래시 어텐션 설치에 문제가 발생하면 공식 스크립트를 참조하여 시스템에 적합한 사전 컴파일된 휠 파일을 생성할 수 있습니다:
```
python scripts/find_flash_attn_wheel.py
```

모델 가중치 다운로드
허깅 페이스 또는 모델스코프에서 모델 가중치와 가변 자동 코더(VAE)를 다운로드하세요:

Step1X-모델 편집:step1x-edit-i1258.safetensors(약 24.9GB)
VAE:vae.safetensors(약 335MB)
Qwen-VL 모델:Qwen/Qwen2.5-VL-7B-Instruct
Python 스크립트를 사용한 자동 다운로드:

from huggingface_hub import snapshot_download
import os
target_dir = "models/step1x"
os.makedirs(target_dir, exist_ok=True)
# 下载 Step1X-Edit 模型
snapshot_download(repo_id="stepfun-ai/Step1X-Edit", local_dir=target_dir, allow_patterns=["step1x-edit-i1258.safetensors"])
# 下载 VAE
snapshot_download(repo_id="stepfun-ai/Step1X-Edit", local_dir=target_dir, allow_patterns=["vae.safetensors"])
# 下载 Qwen-VL
qwen_dir = os.path.join(target_dir, "Qwen2.5-VL-7B-Instruct")
snapshot_download(repo_id="Qwen/Qwen2.5-VL-7B-Instruct", local_dir=qwen_dir)

추론 실행
제공된 추론 스크립트를 사용하여 이미지를 편집합니다. 예를 들어 이미지를 편집하고 배경을 변경합니다:
```
python scripts/run_inference.py --image_path assets/demo.png --prompt "将背景改为夜空" --output_path output.png
```
매개변수 설명:
- --image_path: 이미지 경로를 입력합니다.
- --prompt: 편집 명령(예: "하늘을 일몰로 변경").
- --output_path: 출력 이미지 경로.
- --size_level해상도(기본값 512x512, 1024x1024는 더 많은 메모리 필요).
- --seed생성 일관성을 제어하기 위한 무작위 시드.

ComfyUI 플러그인 사용

Step1X-Edit는 워크플로에 통합하려는 사용자를 위해 ComfyUI 플러그인을 제공합니다.

컴피유 플러그인 저장소를 복제합니다:

cd path/to/ComfyUI/custom_nodes
git clone https://github.com/quank123wip/ComfyUI-Step1X-Edit.git

모델 가중치를 ComfyUI/models/Step1x-Edit 카탈로그:
- step1x-edit-i1258.safetensors
- vae.safetensors
- Qwen-VL 모델 폴더:Qwen2.5-VL-7B-Instruct
ComfyUI를 시작하고 Step1X-Edit 노드를 로드합니다.
ComfyUI 인터페이스에서 이미지를 업로드하고 편집 명령(예: "날개 추가")을 입력한 다음 워크플로우를 실행하여 결과를 생성합니다.

주요 기능

자연어 편집기
사용자가 이미지를 업로드하고 텍스트 명령을 입력합니다. 예를 들어 사진의 배경을 산 풍경으로 변경하려면 "배경을 산 풍경으로 변경"이라고 입력합니다. 모델은 Qwen-VL을 통해 명령을 구문 분석하고 의미를 추출한 다음 DiT와 함께 새 이미지를 생성합니다. 명령은 명확하고 구체적인 것이 좋습니다(예: "하늘을 푸른 별이 빛나는 하늘로 변경"이 "하늘을 아름답게"보다 더 효과적입니다).
개체 제거 또는 추가
"사진에서 사람 제거하기" 또는 "나무 추가하기"와 같은 명령어를 입력합니다. 모델은 이미지의 나머지 부분은 유지하면서 지정된 영역만 정확하게 편집합니다. 복잡한 장면에서는 명령을 여러 번 조정하여 결과를 최적화할 수 있습니다.
스타일 시프트
"이미지를 픽셀 아트 스타일로 변환" 또는 "미야자키 스타일로 변경"과 같은 스타일화된 편집이 지원됩니다. 모델이 확산되어 스타일화된 이미지가 생성됩니다.
온라인 데모
허깅 페이스 공간(https://huggingface.co/spaces/stepfun-ai/Step1X-Edit)을 방문하여 이미지를 업로드하고 지침을 입력한 후 직접 체험해 보세요. 각 세대는 GPU 시간에 따라 제한되며 무료 사용자는 두 번 시도할 수 있습니다.

주의

하드웨어 요구 사항FP8 양자화 버전은 3090 Ti와 같은 GPU의 경우 16GB 메모리로 줄일 수 있습니다.
명령 최적화복잡한 편집에는 "배경을 설산으로 변경하고 전경 캐릭터는 그대로 유지"와 같은 자세한 지침이 필요합니다.
커뮤니티 지원GitHub 리포지토리에는 활발한 커뮤니티가 있으므로 문제가 발생하면 이슈 또는 토론을 확인하세요.

애플리케이션 시나리오

콘텐츠 제작
디자이너는 Step1X-Edit를 사용하여 광고 자료의 배경을 빠르게 변경하거나 스타일을 조정할 수 있습니다. 예를 들어, 제품 사진의 배경을 휴일 테마로 변경하여 시각적 매력을 높일 수 있습니다.
개인 사진 편집
일반 사용자는 사용하기 쉽고 전문적인 기술이 필요하지 않은 온라인 데모를 통해 배경의 잡티를 제거하거나 주간 사진을 야간 사진으로 변경하는 등 사진을 아름답게 보정할 수 있습니다.
이커머스 제품 최적화
전자상거래 플랫폼에서는 촬영 비용을 절감하기 위해 해변이나 도시 배경에 옷을 배치하는 등 다양한 시나리오에서 제품 디스플레이 이미지를 생성하는 데 Step1X-Edit를 사용합니다.
학술 연구
연구원들은 새로운 이미지 편집 알고리즘을 개발하거나 모델 성능을 비교하기 위해 GEdit-Bench 데이터 세트와 모델 가중치를 사용합니다.

QA

Step1X-Edit는 어떤 해상도를 지원하나요?
512x512 및 1024x1024 해상도를 지원합니다. 512x512는 더 빠르고 메모리가 적게 필요하며, 1024x1024는 더 세밀하고 더 많은 메모리를 필요로 합니다.
편집 결과를 최적화하려면 어떻게 해야 하나요?
모호한 설명은 피하고 구체적인 지침을 사용하세요. 다른 표현을 여러 번 시도하면 결과를 개선할 수 있습니다. 예를 들어 "하늘을 붉은 노을로 바꾸다"가 "하늘을 바꾸다"보다 더 명확합니다.
중국어 명령을 지원하나요?
예, 이 모델은 영어와 비슷한 결과를 제공하는 중국어 명령을 지원합니다. 요구 사항을 간결한 언어로 설명하는 것이 좋습니다.
FP8 정량화된 버전 간의 차이점은 무엇인가요?
FP8 버전은 메모리 요구 사항이 더 낮지만(실행에 16GB 필요), 디테일이 약간 떨어질 수 있습니다. 하드웨어 리소스가 제한된 사용자에게 적합합니다.
작동하려면 네트워크에 연결해야 하나요?
로컬에서 실행하려면 인터넷 연결이 필요하지 않습니다. 온라인 데모를 사용하려면 허깅 페이스 공간에 액세스해야 합니다.