Step1X-Edit: 자연어 명령어로 이미지를 편집할 수 있는 오픈 소스 도구
일반 소개
Step1X-Edit는 스텝펀 AI 팀이 개발하고 GitHub에서 호스팅하는 오픈 소스 이미지 편집 프레임워크로, 멀티모달 대규모 언어 모델(Qwen-VL)과 확산 변환기(DiT)를 결합하여 사용자가 배경 변경, 개체 제거, 스타일 전환 등 간단한 자연어 명령으로 이미지를 편집할 수 있게 해줍니다. 2025년 4월 25일에 출시된 이 프로젝트의 성능은 GPT-4o와 같은 비공개 소스 모델과 비슷한 수준입니다. 쌍둥이자리 2 플래시. step1X-Edit는 모델 가중치, 추론 코드, GEdit-Bench 벤치마킹을 제공하여 다양한 편집 시나리오를 지원합니다. Apache 2.0 라이선스는 무료 사용 및 상업적 개발을 허용하여 개발자, 디자이너, 연구자들의 관심을 끌고 있습니다. 커뮤니티 지원이 활발히 이루어지고 있으며 ComfyUI 하드웨어 요구 사항을 최적화하는 플러그인 및 FP8 양자화 버전.
현재 다음에서 사용 가능 스텝 AI 무료 체험. 그러나 실제 이미지 편집 결과는 GPT-4o 및 Gemini 2 플래시와 약간 다릅니다.

기능 목록
- "배경을 해변으로 변경" 또는 "사진에서 사람 제거"와 같은 이미지 편집을 위한 자연어 명령을 지원합니다.
- 멀티모달 대형 언어 모델(Qwen-VL)을 사용하여 이미지 및 텍스트 명령을 구문 분석하여 정밀한 편집을 생성합니다.
- 원본 이미지의 디테일을 유지하는 디퓨전 트랜스포머(DiT)를 기반으로 고품질 이미지를 생성합니다.
- 실제 사용자 명령에 따라 편집 성능을 평가할 수 있는 GEdit-Bench 벤치마킹을 제공합니다.
- FP8 정량 모델을 지원하고, 하드웨어 요구 사항을 줄이며, 저메모리 GPU에 적응합니다.
- ComfyUI 플러그인과의 통합으로 워크플로가 간소화되고 사용자 경험이 향상됩니다.
- 온라인 데모를 통해 설치 없이 편집 기능을 체험해 볼 수 있습니다.
- 2차 개발 및 연구를 지원하기 위한 오픈 소스 모델 가중치 및 추론 코드.
도움말 사용
설치 프로세스
Step1X-Edit를 사용하려면 환경을 설치하고 모델 가중치를 다운로드해야 합니다. 다음은 Linux 시스템(Ubuntu 20.04 이상 권장)에 적합한 세부 단계입니다:
- 환경 준비하기
시스템에 Python 3.10 이상이 설치되어 있는지, 그리고 CUDA 툴킷(12.1 권장)이 설치되어 있는지 확인합니다. GPU가 권장되지만(NVIDIA H800과 같은 80GB RAM이 가장 좋음), FP8 양자화 버전은 더 낮은 RAM(16GB 또는 24GB)도 지원합니다.conda create -n step1x python=3.10 conda activate step1x
- 클론 창고
GitHub에서 Step1X-Edit 프로젝트 코드를 다운로드하세요:git clone https://github.com/stepfun-ai/Step1X-Edit.git cd Step1X-Edit
- 종속성 설치
PyTorch(2.3.1 또는 2.5.1 권장) 및 관련 라이브러리를 설치합니다:pip install torch==2.3.1 torchvision --index-url https://download.pytorch.org/whl/cu121 pip install -r requirements.txt
플래시 주의 설치(선택 사항, 빠른 추론을 위해):
pip install flash-attn --no-build-isolation
플래시 어텐션 설치에 문제가 발생하면 공식 스크립트를 참조하여 시스템에 적합한 사전 컴파일된 휠 파일을 생성할 수 있습니다:
python scripts/find_flash_attn_wheel.py
- 모델 가중치 다운로드
허깅 페이스 또는 모델스코프에서 모델 가중치와 가변 자동 코더(VAE)를 다운로드하세요:- Step1X-모델 편집:
step1x-edit-i1258.safetensors
(약 24.9GB) - VAE:
vae.safetensors
(약 335MB) - Qwen-VL 모델:
Qwen/Qwen2.5-VL-7B-Instruct
Python 스크립트를 사용한 자동 다운로드:
from huggingface_hub import snapshot_download import os target_dir = "models/step1x" os.makedirs(target_dir, exist_ok=True) # 下载 Step1X-Edit 模型 snapshot_download(repo_id="stepfun-ai/Step1X-Edit", local_dir=target_dir, allow_patterns=["step1x-edit-i1258.safetensors"]) # 下载 VAE snapshot_download(repo_id="stepfun-ai/Step1X-Edit", local_dir=target_dir, allow_patterns=["vae.safetensors"]) # 下载 Qwen-VL qwen_dir = os.path.join(target_dir, "Qwen2.5-VL-7B-Instruct") snapshot_download(repo_id="Qwen/Qwen2.5-VL-7B-Instruct", local_dir=qwen_dir)
- Step1X-모델 편집:
- 추론 실행
제공된 추론 스크립트를 사용하여 이미지를 편집합니다. 예를 들어 이미지를 편집하고 배경을 변경합니다:python scripts/run_inference.py --image_path assets/demo.png --prompt "将背景改为夜空" --output_path output.png
매개변수 설명:
--image_path
: 이미지 경로를 입력합니다.--prompt
: 편집 명령(예: "하늘을 일몰로 변경").--output_path
: 출력 이미지 경로.--size_level
해상도(기본값 512x512, 1024x1024는 더 많은 메모리 필요).--seed
생성 일관성을 제어하기 위한 무작위 시드.
ComfyUI 플러그인 사용
Step1X-Edit는 워크플로에 통합하려는 사용자를 위해 ComfyUI 플러그인을 제공합니다.
- 컴피유 플러그인 저장소를 복제합니다:
cd path/to/ComfyUI/custom_nodes git clone https://github.com/quank123wip/ComfyUI-Step1X-Edit.git
- 모델 가중치를
ComfyUI/models/Step1x-Edit
카탈로그:step1x-edit-i1258.safetensors
vae.safetensors
- Qwen-VL 모델 폴더:
Qwen2.5-VL-7B-Instruct
- ComfyUI를 시작하고 Step1X-Edit 노드를 로드합니다.
- ComfyUI 인터페이스에서 이미지를 업로드하고 편집 명령(예: "날개 추가")을 입력한 다음 워크플로우를 실행하여 결과를 생성합니다.
주요 기능
- 자연어 편집기
사용자가 이미지를 업로드하고 텍스트 명령을 입력합니다. 예를 들어 사진의 배경을 산 풍경으로 변경하려면 "배경을 산 풍경으로 변경"이라고 입력합니다. 모델은 Qwen-VL을 통해 명령을 구문 분석하고 의미를 추출한 다음 DiT와 함께 새 이미지를 생성합니다. 명령은 명확하고 구체적인 것이 좋습니다(예: "하늘을 푸른 별이 빛나는 하늘로 변경"이 "하늘을 아름답게"보다 더 효과적입니다). - 개체 제거 또는 추가
"사진에서 사람 제거하기" 또는 "나무 추가하기"와 같은 명령어를 입력합니다. 모델은 이미지의 나머지 부분은 유지하면서 지정된 영역만 정확하게 편집합니다. 복잡한 장면에서는 명령을 여러 번 조정하여 결과를 최적화할 수 있습니다. - 스타일 시프트
"이미지를 픽셀 아트 스타일로 변환" 또는 "미야자키 스타일로 변경"과 같은 스타일화된 편집이 지원됩니다. 모델이 확산되어 스타일화된 이미지가 생성됩니다. - 온라인 데모
허깅 페이스 공간(https://huggingface.co/spaces/stepfun-ai/Step1X-Edit)을 방문하여 이미지를 업로드하고 지침을 입력한 후 직접 체험해 보세요. 각 세대는 GPU 시간에 따라 제한되며 무료 사용자는 두 번 시도할 수 있습니다.
주의
- 하드웨어 요구 사항FP8 양자화 버전은 3090 Ti와 같은 GPU의 경우 16GB 메모리로 줄일 수 있습니다.
- 명령 최적화복잡한 편집에는 "배경을 설산으로 변경하고 전경 캐릭터는 그대로 유지"와 같은 자세한 지침이 필요합니다.
- 커뮤니티 지원GitHub 리포지토리에는 활발한 커뮤니티가 있으므로 문제가 발생하면 이슈 또는 토론을 확인하세요.
애플리케이션 시나리오
- 콘텐츠 제작
디자이너는 Step1X-Edit를 사용하여 광고 자료의 배경을 빠르게 변경하거나 스타일을 조정할 수 있습니다. 예를 들어, 제품 사진의 배경을 휴일 테마로 변경하여 시각적 매력을 높일 수 있습니다. - 개인 사진 편집
일반 사용자는 사용하기 쉽고 전문적인 기술이 필요하지 않은 온라인 데모를 통해 배경의 잡티를 제거하거나 주간 사진을 야간 사진으로 변경하는 등 사진을 아름답게 보정할 수 있습니다. - 이커머스 제품 최적화
전자상거래 플랫폼에서는 촬영 비용을 절감하기 위해 해변이나 도시 배경에 옷을 배치하는 등 다양한 시나리오에서 제품 디스플레이 이미지를 생성하는 데 Step1X-Edit를 사용합니다. - 학술 연구
연구원들은 새로운 이미지 편집 알고리즘을 개발하거나 모델 성능을 비교하기 위해 GEdit-Bench 데이터 세트와 모델 가중치를 사용합니다.
QA
- Step1X-Edit는 어떤 해상도를 지원하나요?
512x512 및 1024x1024 해상도를 지원합니다. 512x512는 더 빠르고 메모리가 적게 필요하며, 1024x1024는 더 세밀하고 더 많은 메모리를 필요로 합니다. - 편집 결과를 최적화하려면 어떻게 해야 하나요?
모호한 설명은 피하고 구체적인 지침을 사용하세요. 다른 표현을 여러 번 시도하면 결과를 개선할 수 있습니다. 예를 들어 "하늘을 붉은 노을로 바꾸다"가 "하늘을 바꾸다"보다 더 명확합니다. - 중국어 명령을 지원하나요?
예, 이 모델은 영어와 비슷한 결과를 제공하는 중국어 명령을 지원합니다. 요구 사항을 간결한 언어로 설명하는 것이 좋습니다. - FP8 정량화된 버전 간의 차이점은 무엇인가요?
FP8 버전은 메모리 요구 사항이 더 낮지만(실행에 16GB 필요), 디테일이 약간 떨어질 수 있습니다. 하드웨어 리소스가 제한된 사용자에게 적합합니다. - 작동하려면 네트워크에 연결해야 하나요?
로컬에서 실행하려면 인터넷 연결이 필요하지 않습니다. 온라인 데모를 사용하려면 허깅 페이스 공간에 액세스해야 합니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...