ChatTTS: um modelo de geração de fala que imita a voz de uma pessoa real falando (pacote de aceleração de um clique do ChatTTS)

Ferramentas de IA mais recentesAtualizado há 5 meses Sharenet.ai

1.7K 0

Introdução geral

O ChatTTS é um modelo de fala generativo projetado para cenários de diálogo. Ele gera fala natural e expressiva, suporta vários idiomas e vários falantes e é adequado para diálogos interativos. O modelo supera a maioria dos modelos de síntese de fala de código aberto, prevendo e controlando recursos rítmicos refinados, como risos, pausas e interjeições. O ChatTTS fornece modelos pré-treinados para dar suporte a mais pesquisa e desenvolvimento, principalmente para fins acadêmicos.

Lista de funções

Suporte a vários idiomasO site oferece suporte aos idiomas: chinês e inglês, e mais idiomas serão expandidos no futuro.
Suporte a vários locutoresA capacidade de gerar vozes de vários falantes o torna adequado para diálogos interativos.
Controle rítmico refinadoCaracterísticas rítmicas, como risos, pausas e interjeições, podem ser previstas e controladas.
Modelo de pré-treinamentoFornecimento de 40.000 horas de modelos pré-treinados para dar suporte a mais pesquisa e desenvolvimento.
código abertoO código é de código aberto no GitHub para uso acadêmico e de pesquisa.

Usando a Ajuda

Processo de instalação

Clonagem do código do projeto::

git clone https://github.com/2noise/ChatTTS.git

Instalação de dependências::

cd ChatTTS
pip install -r requirements.txt

Download do modelo pré-treinadoDownload do modelo pré-treinado do HuggingFace ou do ModelScope e coloque-o no diretório especificado.

Uso

Modelos de carregamento::

from chattts import ChatTTS
model = ChatTTS.load_model('path/to/pretrained/model')

Gerar discurso::

text = "你好，欢迎使用ChatTTS！"
audio = model.synthesize(text)

Salvando arquivos de áudio::

with open('output.wav', 'wb') as f:
f.write(audio)

Operação detalhada da função

entrada de textoSuporte para entrada de texto misto em chinês e inglês.
Controle rítmicoCaracterísticas da rima, como risos, pausas e interjeições, são controladas por meio da configuração de parâmetros.
controle de tomO tom gerado pode ser controlado por um valor de semente de tom predefinido ou código de tom.
controle emocionalControle as características emocionais do discurso gerado definindo os parâmetros de volatilidade e relevância da emoção.
saída de streamingSuporte à geração de áudio longo e à leitura de papéis divididos para cenários de diálogo complexos.

Código de amostra (computação)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好，欢迎使用ChatTTS！"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

Cliente ChatTTS

Experiência rápida

endereço da web	tipologia
Web original	Experiência original na Web
Forge Web	Forjar uma experiência aprimorada
Linux	Instalador do Python
Amostras	Exemplos de sementes de tom
Clonagem	Experiência de clonagem de tons

aprimoramento funcional

evento esportivo	ponto brilhante
jianchang512/ChatTTS-ui	Fornece uma interface de API que pode ser chamada em aplicativos de terceiros
6drf21e/ChatTTS_colab	Fornece saída de streaming com suporte para geração de áudio longo e leitura de função dividida
lenML/ChatTTS-Forge	Fornece aprimoramento vocal e redução de ruído de fundo com palavras de alerta adicionais
CCmahua/ChatTTS-Aprimorado	Oferece suporte ao processamento de arquivos em lote e à exportação de arquivos SRT.
HKoon/ChatTTS-OpenVoice	ajuste OpenVoice Realizar clonagem de som

Expansão da funcionalidade

evento esportivo	ponto brilhante
6drf21e/ChatTTS_Speaker	Marcação de caracteres de tom e avaliação da estabilidade
AIFSH/ComfyUI-ChatTTS	ComfyUi que pode ser introduzida como um nó de fluxo de trabalho
MaterialShadow/ChatTTS-manager	São fornecidos um sistema de gerenciamento de tons e uma interface WebUI.

Pacote de instalação do ChatTTSPlus Accelerated One-Click

O ChatTTSPlus é uma versão estendida do ChatTTS que acrescenta ao original a aceleração do TensorRT, a clonagem de fala e a implantação de modelos móveis. É fácil de usar, oferece um instalador de um clique no Windows e alcança mais de três vezes a melhoria de desempenho com o TensorRT (de 28 tokens/s para 110 tokens/s em GPUs Windows 3060). O ChatTTSPlus é uma ferramenta de síntese de fala avançada e fácil de usar para uma ampla variedade de cenários, com pontos fortes específicos em aplicativos que exigem alto desempenho e recursos de clonagem de fala.

Endereço: https://github.com/warmshao/ChatTTSPlus