Step1X-Edit: 자연어 명령어로 이미지를 편집할 수 있는 오픈 소스 도구

최신 AI 도구2개월 전 업데이트 Sharenet.ai
552 0
吐司AI

일반 소개

Step1X-Edit는 스텝펀 AI 팀이 개발하고 GitHub에서 호스팅하는 오픈 소스 이미지 편집 프레임워크로, 멀티모달 대규모 언어 모델(Qwen-VL)과 확산 변환기(DiT)를 결합하여 사용자가 배경 변경, 개체 제거, 스타일 전환 등 간단한 자연어 명령으로 이미지를 편집할 수 있게 해줍니다. 2025년 4월 25일에 출시된 이 프로젝트의 성능은 GPT-4o와 같은 비공개 소스 모델과 비슷한 수준입니다. 쌍둥이자리 2 플래시. step1X-Edit는 모델 가중치, 추론 코드, GEdit-Bench 벤치마킹을 제공하여 다양한 편집 시나리오를 지원합니다. Apache 2.0 라이선스는 무료 사용 및 상업적 개발을 허용하여 개발자, 디자이너, 연구자들의 관심을 끌고 있습니다. 커뮤니티 지원이 활발히 이루어지고 있으며 ComfyUI 하드웨어 요구 사항을 최적화하는 플러그인 및 FP8 양자화 버전.

현재 다음에서 사용 가능 스텝 AI 무료 체험. 그러나 실제 이미지 편집 결과는 GPT-4o 및 Gemini 2 플래시와 약간 다릅니다.

Step1X-Edit:自然语言指令编辑图像的开源工具

 

기능 목록

  • "배경을 해변으로 변경" 또는 "사진에서 사람 제거"와 같은 이미지 편집을 위한 자연어 명령을 지원합니다.
  • 멀티모달 대형 언어 모델(Qwen-VL)을 사용하여 이미지 및 텍스트 명령을 구문 분석하여 정밀한 편집을 생성합니다.
  • 원본 이미지의 디테일을 유지하는 디퓨전 트랜스포머(DiT)를 기반으로 고품질 이미지를 생성합니다.
  • 실제 사용자 명령에 따라 편집 성능을 평가할 수 있는 GEdit-Bench 벤치마킹을 제공합니다.
  • FP8 정량 모델을 지원하고, 하드웨어 요구 사항을 줄이며, 저메모리 GPU에 적응합니다.
  • ComfyUI 플러그인과의 통합으로 워크플로가 간소화되고 사용자 경험이 향상됩니다.
  • 온라인 데모를 통해 설치 없이 편집 기능을 체험해 볼 수 있습니다.
  • 2차 개발 및 연구를 지원하기 위한 오픈 소스 모델 가중치 및 추론 코드.

 

도움말 사용

설치 프로세스

Step1X-Edit를 사용하려면 환경을 설치하고 모델 가중치를 다운로드해야 합니다. 다음은 Linux 시스템(Ubuntu 20.04 이상 권장)에 적합한 세부 단계입니다:

  1. 환경 준비하기
    시스템에 Python 3.10 이상이 설치되어 있는지, 그리고 CUDA 툴킷(12.1 권장)이 설치되어 있는지 확인합니다. GPU가 권장되지만(NVIDIA H800과 같은 80GB RAM이 가장 좋음), FP8 양자화 버전은 더 낮은 RAM(16GB 또는 24GB)도 지원합니다.

    conda create -n step1x python=3.10
    conda activate step1x
  1. 클론 창고
    GitHub에서 Step1X-Edit 프로젝트 코드를 다운로드하세요:

    git clone https://github.com/stepfun-ai/Step1X-Edit.git
    cd Step1X-Edit
    
  2. 종속성 설치
    PyTorch(2.3.1 또는 2.5.1 권장) 및 관련 라이브러리를 설치합니다:

    pip install torch==2.3.1 torchvision --index-url https://download.pytorch.org/whl/cu121
    pip install -r requirements.txt
    

    플래시 주의 설치(선택 사항, 빠른 추론을 위해):

    pip install flash-attn --no-build-isolation
    

    플래시 어텐션 설치에 문제가 발생하면 공식 스크립트를 참조하여 시스템에 적합한 사전 컴파일된 휠 파일을 생성할 수 있습니다:

    python scripts/find_flash_attn_wheel.py
    
  3. 모델 가중치 다운로드
    허깅 페이스 또는 모델스코프에서 모델 가중치와 가변 자동 코더(VAE)를 다운로드하세요:

    • Step1X-모델 편집:step1x-edit-i1258.safetensors(약 24.9GB)
    • VAE:vae.safetensors(약 335MB)
    • Qwen-VL 모델:Qwen/Qwen2.5-VL-7B-Instruct
      Python 스크립트를 사용한 자동 다운로드:
    from huggingface_hub import snapshot_download
    import os
    target_dir = "models/step1x"
    os.makedirs(target_dir, exist_ok=True)
    # 下载 Step1X-Edit 模型
    snapshot_download(repo_id="stepfun-ai/Step1X-Edit", local_dir=target_dir, allow_patterns=["step1x-edit-i1258.safetensors"])
    # 下载 VAE
    snapshot_download(repo_id="stepfun-ai/Step1X-Edit", local_dir=target_dir, allow_patterns=["vae.safetensors"])
    # 下载 Qwen-VL
    qwen_dir = os.path.join(target_dir, "Qwen2.5-VL-7B-Instruct")
    snapshot_download(repo_id="Qwen/Qwen2.5-VL-7B-Instruct", local_dir=qwen_dir)
    
  4. 추론 실행
    제공된 추론 스크립트를 사용하여 이미지를 편집합니다. 예를 들어 이미지를 편집하고 배경을 변경합니다:

    python scripts/run_inference.py --image_path assets/demo.png --prompt "将背景改为夜空" --output_path output.png
    

    매개변수 설명:

    • --image_path: 이미지 경로를 입력합니다.
    • --prompt: 편집 명령(예: "하늘을 일몰로 변경").
    • --output_path: 출력 이미지 경로.
    • --size_level해상도(기본값 512x512, 1024x1024는 더 많은 메모리 필요).
    • --seed생성 일관성을 제어하기 위한 무작위 시드.

ComfyUI 플러그인 사용

Step1X-Edit는 워크플로에 통합하려는 사용자를 위해 ComfyUI 플러그인을 제공합니다.

  1. 컴피유 플러그인 저장소를 복제합니다:
    cd path/to/ComfyUI/custom_nodes
    git clone https://github.com/quank123wip/ComfyUI-Step1X-Edit.git
    
  2. 모델 가중치를 ComfyUI/models/Step1x-Edit 카탈로그:
    • step1x-edit-i1258.safetensors
    • vae.safetensors
    • Qwen-VL 모델 폴더:Qwen2.5-VL-7B-Instruct
  3. ComfyUI를 시작하고 Step1X-Edit 노드를 로드합니다.
  4. ComfyUI 인터페이스에서 이미지를 업로드하고 편집 명령(예: "날개 추가")을 입력한 다음 워크플로우를 실행하여 결과를 생성합니다.

주요 기능

  • 자연어 편집기
    사용자가 이미지를 업로드하고 텍스트 명령을 입력합니다. 예를 들어 사진의 배경을 산 풍경으로 변경하려면 "배경을 산 풍경으로 변경"이라고 입력합니다. 모델은 Qwen-VL을 통해 명령을 구문 분석하고 의미를 추출한 다음 DiT와 함께 새 이미지를 생성합니다. 명령은 명확하고 구체적인 것이 좋습니다(예: "하늘을 푸른 별이 빛나는 하늘로 변경"이 "하늘을 아름답게"보다 더 효과적입니다).
  • 개체 제거 또는 추가
    "사진에서 사람 제거하기" 또는 "나무 추가하기"와 같은 명령어를 입력합니다. 모델은 이미지의 나머지 부분은 유지하면서 지정된 영역만 정확하게 편집합니다. 복잡한 장면에서는 명령을 여러 번 조정하여 결과를 최적화할 수 있습니다.
  • 스타일 시프트
    "이미지를 픽셀 아트 스타일로 변환" 또는 "미야자키 스타일로 변경"과 같은 스타일화된 편집이 지원됩니다. 모델이 확산되어 스타일화된 이미지가 생성됩니다.
  • 온라인 데모
    허깅 페이스 공간(https://huggingface.co/spaces/stepfun-ai/Step1X-Edit)을 방문하여 이미지를 업로드하고 지침을 입력한 후 직접 체험해 보세요. 각 세대는 GPU 시간에 따라 제한되며 무료 사용자는 두 번 시도할 수 있습니다.

주의

  • 하드웨어 요구 사항FP8 양자화 버전은 3090 Ti와 같은 GPU의 경우 16GB 메모리로 줄일 수 있습니다.
  • 명령 최적화복잡한 편집에는 "배경을 설산으로 변경하고 전경 캐릭터는 그대로 유지"와 같은 자세한 지침이 필요합니다.
  • 커뮤니티 지원GitHub 리포지토리에는 활발한 커뮤니티가 있으므로 문제가 발생하면 이슈 또는 토론을 확인하세요.

 

애플리케이션 시나리오

  1. 콘텐츠 제작
    디자이너는 Step1X-Edit를 사용하여 광고 자료의 배경을 빠르게 변경하거나 스타일을 조정할 수 있습니다. 예를 들어, 제품 사진의 배경을 휴일 테마로 변경하여 시각적 매력을 높일 수 있습니다.
  2. 개인 사진 편집
    일반 사용자는 사용하기 쉽고 전문적인 기술이 필요하지 않은 온라인 데모를 통해 배경의 잡티를 제거하거나 주간 사진을 야간 사진으로 변경하는 등 사진을 아름답게 보정할 수 있습니다.
  3. 이커머스 제품 최적화
    전자상거래 플랫폼에서는 촬영 비용을 절감하기 위해 해변이나 도시 배경에 옷을 배치하는 등 다양한 시나리오에서 제품 디스플레이 이미지를 생성하는 데 Step1X-Edit를 사용합니다.
  4. 학술 연구
    연구원들은 새로운 이미지 편집 알고리즘을 개발하거나 모델 성능을 비교하기 위해 GEdit-Bench 데이터 세트와 모델 가중치를 사용합니다.

 

QA

  1. Step1X-Edit는 어떤 해상도를 지원하나요?
    512x512 및 1024x1024 해상도를 지원합니다. 512x512는 더 빠르고 메모리가 적게 필요하며, 1024x1024는 더 세밀하고 더 많은 메모리를 필요로 합니다.
  2. 편집 결과를 최적화하려면 어떻게 해야 하나요?
    모호한 설명은 피하고 구체적인 지침을 사용하세요. 다른 표현을 여러 번 시도하면 결과를 개선할 수 있습니다. 예를 들어 "하늘을 붉은 노을로 바꾸다"가 "하늘을 바꾸다"보다 더 명확합니다.
  3. 중국어 명령을 지원하나요?
    예, 이 모델은 영어와 비슷한 결과를 제공하는 중국어 명령을 지원합니다. 요구 사항을 간결한 언어로 설명하는 것이 좋습니다.
  4. FP8 정량화된 버전 간의 차이점은 무엇인가요?
    FP8 버전은 메모리 요구 사항이 더 낮지만(실행에 16GB 필요), 디테일이 약간 떨어질 수 있습니다. 하드웨어 리소스가 제한된 사용자에게 적합합니다.
  5. 작동하려면 네트워크에 연결해야 하나요?
    로컬에서 실행하려면 인터넷 연결이 필요하지 않습니다. 온라인 데모를 사용하려면 허깅 페이스 공간에 액세스해야 합니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...