ChatTTS : un modèle de génération de la parole qui imite la voix d'une personne réelle qui parle (ChatTTS one-click acceleration package)

Derniers outils d'IAMise à jour il y a 4 mois Sharenet.ai
1.4K 0
Trae

Introduction générale

ChatTTS est un modèle de parole génératif conçu pour les scénarios de dialogue. Il génère une parole naturelle et expressive, prend en charge plusieurs langues et plusieurs locuteurs, et convient aux dialogues interactifs. Le modèle surpasse la plupart des modèles de synthèse vocale à source ouverte en prédisant et en contrôlant des caractéristiques rythmiques fines telles que le rire, les pauses et les interjections.ChatTTS fournit des modèles pré-entraînés pour soutenir la recherche et le développement, principalement à des fins académiques.

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

Liste des fonctions

  • Prise en charge multilingueLes langues suivantes sont prises en charge : le chinois et l'anglais, et d'autres langues seront ajoutées à l'avenir.
  • Prise en charge de plusieurs interlocuteursLa capacité de générer des voix d'interlocuteurs multiples permet de l'utiliser pour des dialogues interactifs.
  • Contrôle rythmique précisLes caractéristiques rythmiques telles que les rires, les pauses et les interjections peuvent être prédites et contrôlées.
  • Modèle de pré-entraînementLe système de gestion de l'information : il fournit 40 000 heures de modèles pré-entraînés afin de soutenir la recherche et le développement ultérieurs.
  • source ouverteLe code est ouvert sur GitHub pour une utilisation académique et de recherche.

 

Utiliser l'aide

Processus d'installation

  1. Clonage du code du projet: :
    git clone https://github.com/2noise/ChatTTS.git
    
  2. Installation des dépendances: :
    cd ChatTTS
    pip install -r requirements.txt
    
  3. Télécharger le modèle pré-entraînéTélécharger le modèle pré-entraîné à partir de HuggingFace ou ModelScope et le placer dans le répertoire spécifié.

Utilisation

  1. Modèles de chargement: :
    from chattts import ChatTTS
    model = ChatTTS.load_model('path/to/pretrained/model')
    
  2. Générer un discours: :
    text = "你好,欢迎使用ChatTTS!"
    audio = model.synthesize(text)
    
  3. Enregistrement de fichiers audio: :
    with open('output.wav', 'wb') as f:
    f.write(audio)
    

Fonctionnement détaillé

  • saisie de texteLe système de saisie de texte est compatible avec la saisie mixte de textes chinois et anglais.
  • Contrôle rythmiqueLes caractéristiques des rimes, telles que les rires, les pauses et les interjections, sont contrôlées par des paramètres.
  • contrôle de la tonalitéLa tonalité générée peut être contrôlée par une valeur d'amorçage ou un code de tonalité prédéfini.
  • le contrôle des émotionsContrôlez les caractéristiques émotionnelles du discours généré en définissant les paramètres de volatilité et de pertinence de l'émotion.
  • sortie en continuLa génération audio longue et la lecture basée sur les personnages pour les scénarios de dialogue complexes.

exemple de code (informatique)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

 

ChatTTS Client

Expérience rapide

adresse webtypologie
Original WebExpérience Web originale
Forge WebForgez une expérience améliorée
LinuxInstallateur Python
ÉchantillonsExemples de graines de tonalité
ClonageExpérience de clonage de tonalité

 

amélioration fonctionnelle

événement sportifpoint lumineux
jianchang512/ChatTTS-uiFournit une interface API qui peut être appelée dans des applications tierces
6drf21e/ChatTTS_colabFournit une sortie en continu avec la prise en charge de la génération audio longue et de la lecture partagée.
lenML/ChatTTS-ForgeAmélioration de la voix et réduction des bruits de fond grâce à des mots repères supplémentaires
CCmahua/ChatTTS-EnhancedPrise en charge du traitement des fichiers par lots et de l'exportation des fichiers SRT.
HKoon/ChatTTS-OpenVoices'adapter OpenVoice Effectuer un clonage sonore

 

Extension des fonctionnalités

événement sportifpoint lumineux
6drf21e/ChatTTS_SpeakerMarquage du caractère sonore et évaluation de la stabilité
AIFSH/ComfyUI-ChatTTSComfyUi version, qui peut être introduite en tant que nœud de flux de travail
MaterialShadow/ChatTTS-managerUn système de gestion de la tonalité et une interface WebUI sont fournis.

 

ChatTTSPlus - Paquet d'installation accélérée en un clic

ChatTTSPlus est une version étendue de ChatTTS qui ajoute à l'original l'accélération TensorRT, le clonage de la parole et le déploiement de modèles mobiles. Elle est facile à utiliser, propose un programme d'installation en un clic pour Windows et permet de tripler les performances avec TensorRT (de 28 tokens/s à 110 tokens/s sur les GPU Windows 3060). ChatTTSPlus est un outil de synthèse vocale puissant et facile à utiliser pour un large éventail de scénarios, avec des points forts particuliers dans les applications nécessitant des performances élevées et des capacités de clonage de la parole.

Adresse : https://github.com/warmshao/ChatTTSPlus

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...