무한대: 무제한 고해상도 이미지 생성을 위한 고해상도 이미지 생성의 비트 단위 자동 회귀 모델링

최신 AI 도구5개월 전 업데이트 Sharenet.ai
1K 0
Trae

일반 소개

Infinity는 FoundationVision 팀이 개발한 선구적인 고해상도 이미지 생성 프레임워크입니다. 이 프로젝트는 혁신적인 비트 수준의 시각적 자동 회귀 모델링 접근 방식을 통해 기존 이미지 생성 모델의 한계를 극복하고, 비트 수준의 자동 상관관계 메커니즘과 함께 초고화질, 사실적인 이미지를 생성할 수 있는 무제한의 디스모게이게이터 및 분류기 어휘를 사용하는 것이 핵심 기능입니다. 이 프로젝트는 완전 오픈 소스이며 2B에서 20B 매개변수 스케일까지 모델 크기를 선택할 수 있고 최대 1024x1024 해상도의 이미지 생성을 지원합니다. 최첨단 연구 프로젝트인 Infinity는 컴퓨터 비전 분야의 기술 발전을 촉진할 뿐만 아니라 이미지 생성 작업을 위한 새로운 솔루션을 제공합니다.

Infinity:生成高分辨率图像的比特自回归建模,实现无限制高分辨率图像生成

디스코드 채널에 가입하여 인피니티 이미지 생성 모델을 경험해 보세요!

 

기능 목록

  • 2B 파라메트릭 모델은 최대 1024x1024 해상도의 고품질 이미지 생성을 지원합니다.
  • 더 세밀한 이미지 특징 추출을 지원하기 위해 무제한 어휘가 포함된 시각적 어휘집을 제공합니다.
  • 생성된 이미지의 품질과 정확성을 개선하기 위한 비트 레벨 자체 보정 메커니즘 구현
  • 다양한 모델 크기(125M, 1B, 2B, 20B 매개변수)의 유연한 선택 지원
  • 사용자가 이미지 생성 실험을 쉽게 수행할 수 있도록 대화형 추론 인터페이스 제공
  • 완벽한 교육 및 평가 프레임워크와 통합
  • 모델 성능에 대한 다차원 평가 지원(GenEval, DPG, HPSv2.1 및 기타 메트릭)
  • 사용자가 이미지 생성을 직접 체험할 수 있는 온라인 데모 플랫폼 제공

 

도움말 사용

1. 환경 설정

1.1 기본 요구 사항:

  • Python 환경
  • PyTorch >= 2.5.1(FlexAttention 지원 필요)
  • pip를 통해 다른 종속 요소를 설치합니다:pip3 install -r requirements.txt

2. 모델 사용

2.1 빠른 시작:

  • 허깅페이스에서 사전 학습된 모델을 다운로드하세요: infinity_2b_reg.pth
  • 비주얼 세분화기 다운로드: infinity_vae_d32_reg.pth
  • 인터랙티브_인퍼를 이용한 인터랙티브 이미지 생성

2.2 교육 구성:

# 使用单条命令启动训练
bash scripts/train.sh

# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 데이터 준비:

  • 학습 데이터는 JSONL 형식으로 준비해야 합니다.
  • 각 데이터 항목에는 이미지 경로, 길고 짧은 텍스트 설명, 이미지 종횡비 및 기타 정보가 포함됩니다.
  • 샘플 데이터 세트는 프로젝트에서 참조용으로 제공합니다.

2.4 모델 평가:

  • 여러 평가 지표를 지원합니다:
    • ImageReward: 생성된 이미지에 대한 사람의 선호도 점수 평가
    • HPS v2.1: 798,000개의 수동 순위를 기반으로 한 평가 지표
    • GenEval: 텍스트-이미지 정렬 평가하기
    • FID: 생성된 이미지의 품질 및 다양성 평가

2.5 온라인 프레젠테이션:

  • 공식 데모 플랫폼 방문: https://opensource.bytedance.com/gmpt/t2i/invite
  • 텍스트 설명을 입력하여 해당 고화질의 이미지를 생성합니다.
  • 다양한 이미지 해상도 및 생성 매개변수 조정 지원

3. 고급 기능

3.1 비트 수준 자체 수정 메커니즘:

  • 생성 과정에서의 오류 자동 인식 및 수정
  • 생성된 이미지의 품질과 정확성 향상

3.2 모델 확장:

  • 모델 크기의 유연한 확장 지원
  • 125M에서 20B 매개변수까지 다양한 모델 사용 가능
  • 다양한 하드웨어 환경과 애플리케이션 요구 사항에 맞게 조정하기

4. 주의 사항

  • 하드웨어 리소스가 모델 요구 사항을 충족하는지 확인
  • 대규모 모델에는 충분한 GPU 메모리가 필요합니다.
  • 교육용 고성능 컴퓨팅 장비 권장 사항
  • 정기적인 백업 교육 체크포인트
  • MIT 오픈 소스 프로토콜 준수에 주목하세요.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...