ChatTTS: um modelo de geração de fala que imita a voz de uma pessoa real falando (pacote de aceleração de um clique do ChatTTS)

Trae

Introdução geral

O ChatTTS é um modelo de fala generativo projetado para cenários de diálogo. Ele gera fala natural e expressiva, suporta vários idiomas e vários falantes e é adequado para diálogos interativos. O modelo supera a maioria dos modelos de síntese de fala de código aberto, prevendo e controlando recursos rítmicos refinados, como risos, pausas e interjeições. O ChatTTS fornece modelos pré-treinados para dar suporte a mais pesquisa e desenvolvimento, principalmente para fins acadêmicos.

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

Lista de funções

  • Suporte a vários idiomasO site oferece suporte aos idiomas: chinês e inglês, e mais idiomas serão expandidos no futuro.
  • Suporte a vários locutoresA capacidade de gerar vozes de vários falantes o torna adequado para diálogos interativos.
  • Controle rítmico refinadoCaracterísticas rítmicas, como risos, pausas e interjeições, podem ser previstas e controladas.
  • Modelo de pré-treinamentoFornecimento de 40.000 horas de modelos pré-treinados para dar suporte a mais pesquisa e desenvolvimento.
  • código abertoO código é de código aberto no GitHub para uso acadêmico e de pesquisa.

 

Usando a Ajuda

Processo de instalação

  1. Clonagem do código do projeto::
    git clone https://github.com/2noise/ChatTTS.git
    
  2. Instalação de dependências::
    cd ChatTTS
    pip install -r requirements.txt
    
  3. Download do modelo pré-treinadoDownload do modelo pré-treinado do HuggingFace ou do ModelScope e coloque-o no diretório especificado.

Uso

  1. Modelos de carregamento::
    from chattts import ChatTTS
    model = ChatTTS.load_model('path/to/pretrained/model')
    
  2. Gerar discurso::
    text = "你好,欢迎使用ChatTTS!"
    audio = model.synthesize(text)
    
  3. Salvando arquivos de áudio::
    with open('output.wav', 'wb') as f:
    f.write(audio)
    

Operação detalhada da função

  • entrada de textoSuporte para entrada de texto misto em chinês e inglês.
  • Controle rítmicoCaracterísticas da rima, como risos, pausas e interjeições, são controladas por meio da configuração de parâmetros.
  • controle de tomO tom gerado pode ser controlado por um valor de semente de tom predefinido ou código de tom.
  • controle emocionalControle as características emocionais do discurso gerado definindo os parâmetros de volatilidade e relevância da emoção.
  • saída de streamingSuporte à geração de áudio longo e à leitura de papéis divididos para cenários de diálogo complexos.

Código de amostra (computação)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

 

Cliente ChatTTS

Experiência rápida

endereço da webtipologia
Web originalExperiência original na Web
Forge WebForjar uma experiência aprimorada
LinuxInstalador do Python
AmostrasExemplos de sementes de tom
ClonagemExperiência de clonagem de tons

 

aprimoramento funcional

evento esportivoponto brilhante
jianchang512/ChatTTS-uiFornece uma interface de API que pode ser chamada em aplicativos de terceiros
6drf21e/ChatTTS_colabFornece saída de streaming com suporte para geração de áudio longo e leitura de função dividida
lenML/ChatTTS-ForgeFornece aprimoramento vocal e redução de ruído de fundo com palavras de alerta adicionais
CCmahua/ChatTTS-AprimoradoOferece suporte ao processamento de arquivos em lote e à exportação de arquivos SRT.
HKoon/ChatTTS-OpenVoiceajuste OpenVoice Realizar clonagem de som

 

Expansão da funcionalidade

evento esportivoponto brilhante
6drf21e/ChatTTS_SpeakerMarcação de caracteres de tom e avaliação da estabilidade
AIFSH/ComfyUI-ChatTTSComfyUi que pode ser introduzida como um nó de fluxo de trabalho
MaterialShadow/ChatTTS-managerSão fornecidos um sistema de gerenciamento de tons e uma interface WebUI.

 

Pacote de instalação do ChatTTSPlus Accelerated One-Click

O ChatTTSPlus é uma versão estendida do ChatTTS que acrescenta ao original a aceleração do TensorRT, a clonagem de fala e a implantação de modelos móveis. É fácil de usar, oferece um instalador de um clique no Windows e alcança mais de três vezes a melhoria de desempenho com o TensorRT (de 28 tokens/s para 110 tokens/s em GPUs Windows 3060). O ChatTTSPlus é uma ferramenta de síntese de fala avançada e fácil de usar para uma ampla variedade de cenários, com pontos fortes específicos em aplicativos que exigem alto desempenho e recursos de clonagem de fala.

Endereço: https://github.com/warmshao/ChatTTSPlus

© declaração de direitos autorais
AiPPT

Artigos relacionados

Sem comentários

nenhum
Nenhum comentário...