Infinity: modelización autorregresiva por bits de la generación de imágenes de alta resolución para una generación ilimitada de imágenes de alta resolución

Últimas herramientas de IAActualizado hace 7 meses Sharenet.ai

1.3K 0

Introducción general

Infinity es un marco pionero de generación de imágenes de alta resolución desarrollado por el equipo de FoundationVision. La característica principal de Infinity es el uso de un vocabulario ilimitado de desambiguadores y clasificadores que, junto con el mecanismo de autocorrelación a nivel de bits, es capaz de generar imágenes realistas de altísima calidad. El proyecto es totalmente de código abierto y ofrece una selección de tamaños de modelo de 2B a 20B escalas de parámetros, lo que permite generar imágenes con resoluciones de hasta 1024x1024. Como proyecto de investigación de vanguardia, Infinity no sólo impulsa el progreso tecnológico en el campo de la visión por ordenador, sino que también aporta nuevas soluciones para las tareas de generación de imágenes.

¡Únete al canal de discordia para experimentar el modelo de generación de imágenes Infinity!

Lista de funciones

El modelo paramétrico 2B admite la generación de imágenes de alta calidad con una resolución de hasta 1024x1024
Proporciona un léxico visual con un vocabulario ilimitado para facilitar la extracción de características más precisas de las imágenes.
Aplicación de un mecanismo de autocorrección a nivel de bits para mejorar la calidad y precisión de las imágenes generadas.
Admite la selección flexible de varios tamaños de modelo (parámetros 125M, 1B, 2B, 20B)
Proporcionar una interfaz de inferencia interactiva para facilitar a los usuarios la realización de experimentos de generación de imágenes.
Integrado con un marco completo de formación y evaluación
Admite la evaluación multidimensional del rendimiento del modelo (GenEval, DPG, HPSv2.1 y otras métricas)
Ofrece una plataforma de demostración en línea que permite a los usuarios experimentar directamente la generación de imágenes.

Utilizar la ayuda

1. Configuración medioambiental

1.1 Requisitos básicos:

Entorno Python
PyTorch >= 2.5.1 (requiere compatibilidad con FlexAttention)
Instale otras dependencias mediante pip:pip3 install -r requirements.txt

2. Utilización de modelos

2.1 Inicio rápido:

Descarga el modelo preentrenado de HuggingFace: infinity_2b_reg.pth
Descargar Segmentador visual: infinity_vae_d32_reg.pth
Generación interactiva de imágenes mediante interactive_infer.ipynb

2.2 Configuración de la formación:

# 使用单条命令启动训练
bash scripts/train.sh

# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 Preparación de los datos:

Los datos de formación deben prepararse en formato JSONL
Cada dato contiene: ruta de la imagen, descripción breve y larga, relación de aspecto de la imagen y otra información.
El proyecto proporciona conjuntos de datos de muestra como referencia.

2.4 Evaluación del modelo:

Soporte para múltiples indicadores de evaluación:
- ImageReward: evaluación de las preferencias humanas por las imágenes generadas
- HPS v2.1: Métricas de evaluación basadas en 798.000 clasificaciones manuales
- GenEval: evaluación de la alineación texto-imagen
- FID: evaluación de la calidad y la diversidad de las imágenes generadas

2.5 Presentación en línea:

Visite la plataforma de demostración oficial: https://opensource.bytedance.com/gmpt/t2i/invite
Introduzca una descripción de texto para generar la correspondiente imagen de alta calidad
Admite el ajuste de múltiples resoluciones de imagen y parámetros de generación