Wav2Lip: ferramenta de código aberto de geração de sincronização labial de alta precisão (recomendado)

Ferramentas de IA mais recentesAtualizado há 6 meses Sharenet.ai

1.9K 0

Introdução geral

O Wav2Lip é uma ferramenta de geração de sincronização labial de alta precisão e de código aberto, projetada para sincronizar com precisão áudio arbitrário com sincronização labial em vídeo. Lançada na ACM Multimedia 2020 por Rudrabha Mukhopadhyay et al, a ferramenta utiliza técnicas avançadas de IA para permitir a sincronização labial de alta qualidade em diversos ambientes. Adequado para pesquisa, uso acadêmico e pessoal, o Wav2Lip é fornecido com código de treinamento completo, código de inferência e modelos pré-treinados.

Já faz muito tempo que o projeto foi iterado, e esta é uma versão otimizada recentemente:Easy-Wav2Lip: ferramenta para sincronização labial de vídeo de alta qualidade, otimizada para Wav2Lip . Para obter mais informações sobre como o Wav2Lip se integra, você pode consultar o Translation Starter: Ferramenta de sincronização de tradução de conteúdo de vídeo de código aberto | Conversão de idiomas | Sincronização labial .

Wav2Lip em Laboratórios Sync É oferecida hospedagem gratuita.

Notas de colaboração:
https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u
https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing

Lista de funções

Sincronização labial de alta precisão: sincronize com precisão qualquer áudio com a sincronização labial no vídeo.
Suporte a vários idiomas: funciona com uma variedade de idiomas e sons, incluindo faces CGI e sons sintetizados.
Código aberto e gratuito: o código é totalmente público, e os usuários podem usá-lo e modificá-lo livremente.
Demonstração interativa: fornece uma demonstração on-line em que os usuários podem carregar arquivos de vídeo e áudio para experimentar.
Modelos de pré-treinamento: forneça uma variedade de modelos de pré-treinamento, para que os usuários possam usar diretamente ou no treinamento secundário.
Código de treinamento completo: inclui o código de treinamento para o Discriminador de sincronização da boca e o modelo Wav2Lip.

Usando a Ajuda

Processo de instalação

Armazém de clonagem :
cópia bash

git clonehttps://github.com/Rudrabha/Wav2Lip

Instalar dependências :
cópia bash

pip install -r requirements.txt

Download do modelo pré-treinado: faça o download do modelo pré-treinado para o diretório especificado, por exemplo face_detection/detection/sfd/s3fd.pth.
Execute o código de inferência:
cópia bash

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

Processo de uso

Acesso ao servidor local: abrir no navegador http://localhost:3000.
Dica de entrada: Digite a descrição da imagem que você deseja gerar na caixa de entrada e a imagem será gerada em tempo real.
Visualização e download de imagens: As imagens geradas são exibidas na página e um botão de download será adicionado em uma versão futura.
Use o Modo de consistência : Ative o Modo de consistência para gerar imagens consistentes, mantendo o fundo ou os objetos principais consistentes.
View Image History (Exibir histórico de imagens): Use o recurso Image History (Histórico de imagens) para exibir todas as imagens geradas e navegar entre elas.

Recursos avançados

Dicas aprimoradas: otimize os resultados gerados com opções de dicas aprimoradas.
Select Model : Selecione diferentes modelos de IA de acordo com suas necessidades.
Desenvolvimento personalizado: como o Wav2Lip é de código aberto, os usuários podem fazer o desenvolvimento secundário de acordo com suas próprias necessidades.