SkyReels V2: una herramienta de IA de código abierto para generar vídeos de duración ilimitada
Introducción general
SkyReels-V2 es un modelo de generación de vídeo de código abierto desarrollado por SkyworkAI. Admite la generación de vídeos de longitud ilimitada mediante técnicas avanzadas de forzado por difusión tanto para tareas de texto a vídeo (T2V) como de imagen a vídeo (I2V). Los usuarios pueden generar contenidos de vídeo de alta calidad cinematográfica utilizando descripciones de texto o imágenes de entrada. El modelo cuenta con una sólida trayectoria en la comunidad de código abierto, con un rendimiento comparable al de modelos comerciales como Kling y Runway-Gen4. Proporciona patrones de inferencia flexibles adecuados para desarrolladores, creadores e investigadores, y el código y los pesos del modelo de SkyReels-V2 están disponibles públicamente en GitHub para facilitar su descarga y despliegue.

Lista de funciones
- Generación de vídeos de duración ilimitadaSoporte para generar vídeos de cualquier duración, desde cortometrajes a largometrajes.
- Texto a vídeo (T2V)Generar contenido de vídeo que coincida con la descripción a través de mensajes de texto.
- Imagen a vídeo (I2V): Generar vídeo dinámico a partir de la imagen de entrada, manteniendo las características de la imagen.
- apoyo multimodalCombining large-scale language modelling (MLLM) and reinforcement learning to improve video generation quality.
- Generación de historias: Genere automáticamente guiones gráficos de vídeo que se ajusten a la lógica narrativa.
- control de cámara: Ofrece el punto de vista de un director con ayuda para personalizar los ángulos y el movimiento de la cámara.
- Coherencia multisujetoEl sistema SkyReels-A2 garantiza la coherencia visual de los vídeos de varias tomas.
- Marco de razonamiento eficiente: Admite razonamiento multi-GPU para optimizar la velocidad de generación y el uso de recursos.
Utilizar la ayuda
Proceso de instalación
SkyReels-V2 es un proyecto de código abierto basado en Python , necesita configurar el entorno localmente o en el servidor . Aquí están los pasos detallados de instalación:
- almacén de clones
Abre un terminal y ejecuta el siguiente comando para obtener el código de SkyReels-V2:git clone https://github.com/SkyworkAI/SkyReels-V2 cd SkyReels-V2
- Creación de un entorno virtual
Se recomienda crear un entorno virtual con Python 3.10.12 para evitar conflictos de dependencias:conda create -n skyreels-v2 python=3.10 conda activate skyreels-v2
- Instalación de dependencias
Instala las librerías Python necesarias para el proyecto y ejecútalo:pip install -r requirements.txt
- Descargar modelos de pesos
Los pesos del modelo para SkyReels-V2 están alojados en Hugging Face. Descárgalos con el siguiente comando:pip install -U "huggingface_hub[cli]" huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
Asegúrate de que tienes suficiente espacio en disco (los tamaños de los modelos pueden ser de decenas de gigabytes).
- requisitos de hardware
- configuración mínima: RTX 4090 monobloque (24 GB de VRAM) compatible con FP8 para reducir cuantitativamente los requisitos de memoria.
- Configuraciones recomendadasMúltiples GPU (por ejemplo, de 4 a 8 A100) para permitir una inferencia paralela eficiente.
- Al menos 32 GB de memoria del sistema y 100 GB de espacio en disco.
Utilización
El SkyReels-V2 ofrece dos funciones principales: Texto a Vídeo (T2V) e Imagen a Vídeo (I2V). A continuación se describe el procedimiento de funcionamiento específico:
Texto a vídeo (T2V)
- Preparación de las señales
Escribe indicaciones de texto que describan el contenido del vídeo, por ejemplo:A serene lake surrounded by towering mountains, with swans gliding across the water.
Se pueden añadir señales negativas para evitar elementos no deseados:
low quality, deformation, bad composition
- Ejecutar el script generado
modificacionesgenerate_video.py
ajustar la resolución, la frecuencia de imagen, etc:python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
--model_id
: Seleccione el modelo (por ejemplo, 540P o 720P).--num_frames
: Ajusta la velocidad de fotogramas de vídeo (por defecto 97).--fps
Frecuencia de imagen (por defecto 24).--outdir
: Ruta de guardado del vídeo de salida.
- Ver salida
El vídeo generado se guardará en formato MP4.output/serene_lake_42_0.mp4
.
Imagen a vídeo (I2V)
- Preparación de la imagen de entrada
Proporcione una imagen de alta calidad (por ejemplo, PNG o JPG), asegurándose de que la resolución coincide con el modelo (por defecto 960x544). - Ejecutar el script generado
existegenerate_video.py
Especifique la ruta de la imagen en el campopython generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
--image
Introduzca la ruta de la imagen.- Los demás parámetros son similares a los del T2V.
- Ajustes de optimización
- utilizar
--guidance_scale
(Predeterminado 6.0) Ajusta la intensidad de la dirección del texto. - utilizar
--inference_steps
(por defecto 30) Controla la calidad de la generación, cuantos más pasos más alta será la calidad pero más tiempo tardará. - comisión
--offload
Uso optimizado de la memoria para dispositivos con poca memoria gráfica.
- utilizar
Función destacada Operación
- Vídeo de duración ilimitada
SkyReels-V2 utiliza la tecnología de forzado por difusión para soportar la generación de vídeos muy largos. Ejecuta guiones de inferencia de vídeos largos:python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
- Se recomienda generarlos en segmentos de 97-192 fotogramas cada uno, y luego unirlos con herramientas de postproducción.
- Generación de historias
Utilice la función de generación de historias del sistema SkyReels-A2 para introducir una descripción de la trama:A hero’s journey through a futuristic city, facing challenges.
Corriendo:
python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
El sistema generará vídeos con guiones gráficos, organizando automáticamente escenas y planos.
- control de cámara
aprobar (una factura o inspección, etc.)--camera_angle
establece la vista del objetivo (por ejemplo, "frontal" o "perfil"):python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
- Coherencia multisujeto
SkyReels-A2 admite escenas con varios caracteres. Proporciona múltiples imágenes de referencia para ejecutar:python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
Asegúrate de que los personajes son visualmente coherentes en el vídeo.
Optimización y depuración
- déficit de memoria: Activar
--quant
Cuantificación mediante FP8, o--offload
Descarga algunos cálculos a la CPU. - Generar calidad: Aumentar
--inference_steps
(por ejemplo, 50) o ajustar--guidance_scale
(por ejemplo, 8,0). - Apoyo comunitarioConsulta los problemas en GitHub o únete a la iniciativa SkyReels Debate comunitario.
escenario de aplicación
- Creación de vídeos cortos
Los creadores pueden utilizar la función T2V para generar rápidamente videoclips cortos a partir de texto, adecuados para la producción de contenidos para redes sociales. - Preproducción de películas
Los directores pueden utilizar las funciones de vídeo de duración ilimitada y generación de historias para crear trailers de películas o películas conceptuales, reduciendo así los costes iniciales. - Escaparate virtual de comercio electrónico
Utilice la función I2V para convertir imágenes de productos en vídeos dinámicos que muestren cómo se utiliza el producto en una escena virtual. - Animación educativa
Los profesores pueden generar animaciones didácticas a partir de descripciones textuales para visualizar conceptos complejos, como el proceso de un experimento científico. - desarrollo de juegos
Los desarrolladores pueden generar escenas de juego o animaciones de personajes para utilizarlas como material para prototipos o transiciones.
CONTROL DE CALIDAD
- ¿Qué resoluciones admite SkyReels-V2?
Actualmente admite 540P (960x544) y 720P (1280x720), con la posibilidad de ampliarlo a resoluciones superiores en el futuro. - ¿Cuánta memoria de vídeo necesito para ejecutarlo?
Una sola RTX 4090 (24 GB) puede ejecutar el razonamiento básico, y las configuraciones multi-GPU pueden acelerar el vídeo en bruto y crecido. - ¿Cómo mejorar la calidad de los vídeos generados?
Aumentar el número de pasos de razonamiento (--inference_steps
), optimizar las palabras clave o utilizar imágenes de entrada de alta calidad. - ¿Admite la generación en tiempo real?
Actualmente, la generación offline, en tiempo real, requiere un mayor soporte de hardware y podrá optimizarse en el futuro. - ¿Las pesas modelo son gratuitas?
Sí, SkyReels-V2 es completamente de código abierto y los pesos pueden descargarse gratuitamente de Hugging Face.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...