SkyReels V2: una herramienta de IA de código abierto para generar vídeos de duración ilimitada

吐司AI

Introducción general

SkyReels-V2 es un modelo de generación de vídeo de código abierto desarrollado por SkyworkAI. Admite la generación de vídeos de longitud ilimitada mediante técnicas avanzadas de forzado por difusión tanto para tareas de texto a vídeo (T2V) como de imagen a vídeo (I2V). Los usuarios pueden generar contenidos de vídeo de alta calidad cinematográfica utilizando descripciones de texto o imágenes de entrada. El modelo cuenta con una sólida trayectoria en la comunidad de código abierto, con un rendimiento comparable al de modelos comerciales como Kling y Runway-Gen4. Proporciona patrones de inferencia flexibles adecuados para desarrolladores, creadores e investigadores, y el código y los pesos del modelo de SkyReels-V2 están disponibles públicamente en GitHub para facilitar su descarga y despliegue.

SkyReels V2:生成无限长度视频的开源AI工具

 

Lista de funciones

  • Generación de vídeos de duración ilimitadaSoporte para generar vídeos de cualquier duración, desde cortometrajes a largometrajes.
  • Texto a vídeo (T2V)Generar contenido de vídeo que coincida con la descripción a través de mensajes de texto.
  • Imagen a vídeo (I2V): Generar vídeo dinámico a partir de la imagen de entrada, manteniendo las características de la imagen.
  • apoyo multimodalCombining large-scale language modelling (MLLM) and reinforcement learning to improve video generation quality.
  • Generación de historias: Genere automáticamente guiones gráficos de vídeo que se ajusten a la lógica narrativa.
  • control de cámara: Ofrece el punto de vista de un director con ayuda para personalizar los ángulos y el movimiento de la cámara.
  • Coherencia multisujetoEl sistema SkyReels-A2 garantiza la coherencia visual de los vídeos de varias tomas.
  • Marco de razonamiento eficiente: Admite razonamiento multi-GPU para optimizar la velocidad de generación y el uso de recursos.

 

Utilizar la ayuda

Proceso de instalación

SkyReels-V2 es un proyecto de código abierto basado en Python , necesita configurar el entorno localmente o en el servidor . Aquí están los pasos detallados de instalación:

  1. almacén de clones
    Abre un terminal y ejecuta el siguiente comando para obtener el código de SkyReels-V2:

    git clone https://github.com/SkyworkAI/SkyReels-V2
    cd SkyReels-V2
    
  2. Creación de un entorno virtual
    Se recomienda crear un entorno virtual con Python 3.10.12 para evitar conflictos de dependencias:

    conda create -n skyreels-v2 python=3.10
    conda activate skyreels-v2
    
  3. Instalación de dependencias
    Instala las librerías Python necesarias para el proyecto y ejecútalo:

    pip install -r requirements.txt
    
  4. Descargar modelos de pesos
    Los pesos del modelo para SkyReels-V2 están alojados en Hugging Face. Descárgalos con el siguiente comando:

    pip install -U "huggingface_hub[cli]"
    huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
    

    Asegúrate de que tienes suficiente espacio en disco (los tamaños de los modelos pueden ser de decenas de gigabytes).

  5. requisitos de hardware
    • configuración mínima: RTX 4090 monobloque (24 GB de VRAM) compatible con FP8 para reducir cuantitativamente los requisitos de memoria.
    • Configuraciones recomendadasMúltiples GPU (por ejemplo, de 4 a 8 A100) para permitir una inferencia paralela eficiente.
    • Al menos 32 GB de memoria del sistema y 100 GB de espacio en disco.

Utilización

El SkyReels-V2 ofrece dos funciones principales: Texto a Vídeo (T2V) e Imagen a Vídeo (I2V). A continuación se describe el procedimiento de funcionamiento específico:

Texto a vídeo (T2V)

  1. Preparación de las señales
    Escribe indicaciones de texto que describan el contenido del vídeo, por ejemplo:

    A serene lake surrounded by towering mountains, with swans gliding across the water.
    

    Se pueden añadir señales negativas para evitar elementos no deseados:

    low quality, deformation, bad composition
    
  2. Ejecutar el script generado
    modificaciones generate_video.py ajustar la resolución, la frecuencia de imagen, etc:

    python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
    
    • --model_id: Seleccione el modelo (por ejemplo, 540P o 720P).
    • --num_frames: Ajusta la velocidad de fotogramas de vídeo (por defecto 97).
    • --fpsFrecuencia de imagen (por defecto 24).
    • --outdir: Ruta de guardado del vídeo de salida.
  3. Ver salida
    El vídeo generado se guardará en formato MP4. output/serene_lake_42_0.mp4.

Imagen a vídeo (I2V)

  1. Preparación de la imagen de entrada
    Proporcione una imagen de alta calidad (por ejemplo, PNG o JPG), asegurándose de que la resolución coincide con el modelo (por defecto 960x544).
  2. Ejecutar el script generado
    existe generate_video.py Especifique la ruta de la imagen en el campo

    python generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
    
    • --imageIntroduzca la ruta de la imagen.
    • Los demás parámetros son similares a los del T2V.
  3. Ajustes de optimización
    • utilizar --guidance_scale(Predeterminado 6.0) Ajusta la intensidad de la dirección del texto.
    • utilizar --inference_steps(por defecto 30) Controla la calidad de la generación, cuantos más pasos más alta será la calidad pero más tiempo tardará.
    • comisión --offload Uso optimizado de la memoria para dispositivos con poca memoria gráfica.

Función destacada Operación

  1. Vídeo de duración ilimitada
    SkyReels-V2 utiliza la tecnología de forzado por difusión para soportar la generación de vídeos muy largos. Ejecuta guiones de inferencia de vídeos largos:

    python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
    
    • Se recomienda generarlos en segmentos de 97-192 fotogramas cada uno, y luego unirlos con herramientas de postproducción.
  2. Generación de historias
    Utilice la función de generación de historias del sistema SkyReels-A2 para introducir una descripción de la trama:

    A hero’s journey through a futuristic city, facing challenges.
    

    Corriendo:

    python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
    

    El sistema generará vídeos con guiones gráficos, organizando automáticamente escenas y planos.

  3. control de cámara
    aprobar (una factura o inspección, etc.) --camera_angle establece la vista del objetivo (por ejemplo, "frontal" o "perfil"):

    python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
    
  4. Coherencia multisujeto
    SkyReels-A2 admite escenas con varios caracteres. Proporciona múltiples imágenes de referencia para ejecutar:

    python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
    

    Asegúrate de que los personajes son visualmente coherentes en el vídeo.

Optimización y depuración

  • déficit de memoria: Activar --quant Cuantificación mediante FP8, o --offload Descarga algunos cálculos a la CPU.
  • Generar calidad: Aumentar --inference_steps(por ejemplo, 50) o ajustar --guidance_scale(por ejemplo, 8,0).
  • Apoyo comunitarioConsulta los problemas en GitHub o únete a la iniciativa SkyReels Debate comunitario.

 

escenario de aplicación

  1. Creación de vídeos cortos
    Los creadores pueden utilizar la función T2V para generar rápidamente videoclips cortos a partir de texto, adecuados para la producción de contenidos para redes sociales.
  2. Preproducción de películas
    Los directores pueden utilizar las funciones de vídeo de duración ilimitada y generación de historias para crear trailers de películas o películas conceptuales, reduciendo así los costes iniciales.
  3. Escaparate virtual de comercio electrónico
    Utilice la función I2V para convertir imágenes de productos en vídeos dinámicos que muestren cómo se utiliza el producto en una escena virtual.
  4. Animación educativa
    Los profesores pueden generar animaciones didácticas a partir de descripciones textuales para visualizar conceptos complejos, como el proceso de un experimento científico.
  5. desarrollo de juegos
    Los desarrolladores pueden generar escenas de juego o animaciones de personajes para utilizarlas como material para prototipos o transiciones.

 

CONTROL DE CALIDAD

  1. ¿Qué resoluciones admite SkyReels-V2?
    Actualmente admite 540P (960x544) y 720P (1280x720), con la posibilidad de ampliarlo a resoluciones superiores en el futuro.
  2. ¿Cuánta memoria de vídeo necesito para ejecutarlo?
    Una sola RTX 4090 (24 GB) puede ejecutar el razonamiento básico, y las configuraciones multi-GPU pueden acelerar el vídeo en bruto y crecido.
  3. ¿Cómo mejorar la calidad de los vídeos generados?
    Aumentar el número de pasos de razonamiento (--inference_steps), optimizar las palabras clave o utilizar imágenes de entrada de alta calidad.
  4. ¿Admite la generación en tiempo real?
    Actualmente, la generación offline, en tiempo real, requiere un mayor soporte de hardware y podrá optimizarse en el futuro.
  5. ¿Las pesas modelo son gratuitas?
    Sí, SkyReels-V2 es completamente de código abierto y los pesos pueden descargarse gratuitamente de Hugging Face.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...