무한대: 무제한 고해상도 이미지 생성을 위한 고해상도 이미지 생성의 비트 단위 자동 회귀 모델링
일반 소개
Infinity는 FoundationVision 팀이 개발한 선구적인 고해상도 이미지 생성 프레임워크입니다. 이 프로젝트는 혁신적인 비트 수준의 시각적 자동 회귀 모델링 접근 방식을 통해 기존 이미지 생성 모델의 한계를 극복하고, 비트 수준의 자동 상관관계 메커니즘과 함께 초고화질, 사실적인 이미지를 생성할 수 있는 무제한의 디스모게이게이터 및 분류기 어휘를 사용하는 것이 핵심 기능입니다. 이 프로젝트는 완전 오픈 소스이며 2B에서 20B 매개변수 스케일까지 모델 크기를 선택할 수 있고 최대 1024x1024 해상도의 이미지 생성을 지원합니다. 최첨단 연구 프로젝트인 Infinity는 컴퓨터 비전 분야의 기술 발전을 촉진할 뿐만 아니라 이미지 생성 작업을 위한 새로운 솔루션을 제공합니다.

디스코드 채널에 가입하여 인피니티 이미지 생성 모델을 경험해 보세요!
기능 목록
- 2B 파라메트릭 모델은 최대 1024x1024 해상도의 고품질 이미지 생성을 지원합니다.
- 더 세밀한 이미지 특징 추출을 지원하기 위해 무제한 어휘가 포함된 시각적 어휘집을 제공합니다.
- 생성된 이미지의 품질과 정확성을 개선하기 위한 비트 레벨 자체 보정 메커니즘 구현
- 다양한 모델 크기(125M, 1B, 2B, 20B 매개변수)의 유연한 선택 지원
- 사용자가 이미지 생성 실험을 쉽게 수행할 수 있도록 대화형 추론 인터페이스 제공
- 완벽한 교육 및 평가 프레임워크와 통합
- 모델 성능에 대한 다차원 평가 지원(GenEval, DPG, HPSv2.1 및 기타 메트릭)
- 사용자가 이미지 생성을 직접 체험할 수 있는 온라인 데모 플랫폼 제공
도움말 사용
1. 환경 설정
1.1 기본 요구 사항:
- Python 환경
- PyTorch >= 2.5.1(FlexAttention 지원 필요)
- pip를 통해 다른 종속 요소를 설치합니다:
pip3 install -r requirements.txt
2. 모델 사용
2.1 빠른 시작:
- 허깅페이스에서 사전 학습된 모델을 다운로드하세요: infinity_2b_reg.pth
- 비주얼 세분화기 다운로드: infinity_vae_d32_reg.pth
- 인터랙티브_인퍼를 이용한 인터랙티브 이미지 생성
2.2 교육 구성:
# 使用单条命令启动训练
bash scripts/train.sh
# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M
# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M
2.3 데이터 준비:
- 학습 데이터는 JSONL 형식으로 준비해야 합니다.
- 각 데이터 항목에는 이미지 경로, 길고 짧은 텍스트 설명, 이미지 종횡비 및 기타 정보가 포함됩니다.
- 샘플 데이터 세트는 프로젝트에서 참조용으로 제공합니다.
2.4 모델 평가:
- 여러 평가 지표를 지원합니다:
- ImageReward: 생성된 이미지에 대한 사람의 선호도 점수 평가
- HPS v2.1: 798,000개의 수동 순위를 기반으로 한 평가 지표
- GenEval: 텍스트-이미지 정렬 평가하기
- FID: 생성된 이미지의 품질 및 다양성 평가
2.5 온라인 프레젠테이션:
- 공식 데모 플랫폼 방문: https://opensource.bytedance.com/gmpt/t2i/invite
- 텍스트 설명을 입력하여 해당 고화질의 이미지를 생성합니다.
- 다양한 이미지 해상도 및 생성 매개변수 조정 지원
3. 고급 기능
3.1 비트 수준 자체 수정 메커니즘:
- 생성 과정에서의 오류 자동 인식 및 수정
- 생성된 이미지의 품질과 정확성 향상
3.2 모델 확장:
- 모델 크기의 유연한 확장 지원
- 125M에서 20B 매개변수까지 다양한 모델 사용 가능
- 다양한 하드웨어 환경과 애플리케이션 요구 사항에 맞게 조정하기
4. 주의 사항
- 하드웨어 리소스가 모델 요구 사항을 충족하는지 확인
- 대규모 모델에는 충분한 GPU 메모리가 필요합니다.
- 교육용 고성능 컴퓨팅 장비 권장 사항
- 정기적인 백업 교육 체크포인트
- MIT 오픈 소스 프로토콜 준수에 주목하세요.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...