Wav2Lip: ferramenta de código aberto de geração de sincronização labial de alta precisão (recomendado)

Trae

Introdução geral

O Wav2Lip é uma ferramenta de geração de sincronização labial de alta precisão e de código aberto, projetada para sincronizar com precisão áudio arbitrário com sincronização labial em vídeo. Lançada na ACM Multimedia 2020 por Rudrabha Mukhopadhyay et al, a ferramenta utiliza técnicas avançadas de IA para permitir a sincronização labial de alta qualidade em diversos ambientes. Adequado para pesquisa, uso acadêmico e pessoal, o Wav2Lip é fornecido com código de treinamento completo, código de inferência e modelos pré-treinados.

Já faz muito tempo que o projeto foi iterado, e esta é uma versão otimizada recentemente:Easy-Wav2Lip: ferramenta para sincronização labial de vídeo de alta qualidade, otimizada para Wav2Lip . Para obter mais informações sobre como o Wav2Lip se integra, você pode consultar o Translation Starter: Ferramenta de sincronização de tradução de conteúdo de vídeo de código aberto | Conversão de idiomas | Sincronização labial .

Wav2Lip em Laboratórios Sync É oferecida hospedagem gratuita.

Notas de colaboração:

https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u

https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing

 

Lista de funções

  • Sincronização labial de alta precisão: sincronize com precisão qualquer áudio com a sincronização labial no vídeo.
  • Suporte a vários idiomas: funciona com uma variedade de idiomas e sons, incluindo faces CGI e sons sintetizados.
  • Código aberto e gratuito: o código é totalmente público, e os usuários podem usá-lo e modificá-lo livremente.
  • Demonstração interativa: fornece uma demonstração on-line em que os usuários podem carregar arquivos de vídeo e áudio para experimentar.
  • Modelos de pré-treinamento: forneça uma variedade de modelos de pré-treinamento, para que os usuários possam usar diretamente ou no treinamento secundário.
  • Código de treinamento completo: inclui o código de treinamento para o Discriminador de sincronização da boca e o modelo Wav2Lip.

 

Usando a Ajuda

Processo de instalação

  1. Armazém de clonagem :
    cópia bash
git clonehttps://github.com/Rudrabha/Wav2Lip
  1. Instalar dependências :
    cópia bash
pip install -r requirements.txt
  1. Download do modelo pré-treinado: faça o download do modelo pré-treinado para o diretório especificado, por exemplo face_detection/detection/sfd/s3fd.pth.
  2. Execute o código de inferência:
    cópia bash
python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

Processo de uso

  1. Acesso ao servidor local: abrir no navegador http://localhost:3000.
  2. Dica de entrada: Digite a descrição da imagem que você deseja gerar na caixa de entrada e a imagem será gerada em tempo real.
  3. Visualização e download de imagens: As imagens geradas são exibidas na página e um botão de download será adicionado em uma versão futura.
  4. Use o Modo de consistência : Ative o Modo de consistência para gerar imagens consistentes, mantendo o fundo ou os objetos principais consistentes.
  5. View Image History (Exibir histórico de imagens): Use o recurso Image History (Histórico de imagens) para exibir todas as imagens geradas e navegar entre elas.

Recursos avançados

  • Dicas aprimoradas: otimize os resultados gerados com opções de dicas aprimoradas.
  • Select Model : Selecione diferentes modelos de IA de acordo com suas necessidades.
  • Desenvolvimento personalizado: como o Wav2Lip é de código aberto, os usuários podem fazer o desenvolvimento secundário de acordo com suas próprias necessidades.

 

Instalador do Wav2Lip para Windows com um clique (otimizado para memória)

链接:https://pan.quark.cn/s/4755eabcdf52
提取码:Xr86

© declaração de direitos autorais
AiPPT

Artigos relacionados

Sem comentários

nenhum
Nenhum comentário...