ChatTTS : un modèle de génération de la parole qui imite la voix d'une personne réelle qui parle (ChatTTS one-click acceleration package)
Introduction générale
ChatTTS est un modèle de parole génératif conçu pour les scénarios de dialogue. Il génère une parole naturelle et expressive, prend en charge plusieurs langues et plusieurs locuteurs, et convient aux dialogues interactifs. Le modèle surpasse la plupart des modèles de synthèse vocale à source ouverte en prédisant et en contrôlant des caractéristiques rythmiques fines telles que le rire, les pauses et les interjections.ChatTTS fournit des modèles pré-entraînés pour soutenir la recherche et le développement, principalement à des fins académiques.


Liste des fonctions
- Prise en charge multilingueLes langues suivantes sont prises en charge : le chinois et l'anglais, et d'autres langues seront ajoutées à l'avenir.
- Prise en charge de plusieurs interlocuteursLa capacité de générer des voix d'interlocuteurs multiples permet de l'utiliser pour des dialogues interactifs.
- Contrôle rythmique précisLes caractéristiques rythmiques telles que les rires, les pauses et les interjections peuvent être prédites et contrôlées.
- Modèle de pré-entraînementLe système de gestion de l'information : il fournit 40 000 heures de modèles pré-entraînés afin de soutenir la recherche et le développement ultérieurs.
- source ouverteLe code est ouvert sur GitHub pour une utilisation académique et de recherche.
Utiliser l'aide
Processus d'installation
- Clonage du code du projet: :
git clone https://github.com/2noise/ChatTTS.git
- Installation des dépendances: :
cd ChatTTS pip install -r requirements.txt
- Télécharger le modèle pré-entraînéTélécharger le modèle pré-entraîné à partir de HuggingFace ou ModelScope et le placer dans le répertoire spécifié.
Utilisation
- Modèles de chargement: :
from chattts import ChatTTS model = ChatTTS.load_model('path/to/pretrained/model')
- Générer un discours: :
text = "你好,欢迎使用ChatTTS!" audio = model.synthesize(text)
- Enregistrement de fichiers audio: :
with open('output.wav', 'wb') as f: f.write(audio)
Fonctionnement détaillé
- saisie de texteLe système de saisie de texte est compatible avec la saisie mixte de textes chinois et anglais.
- Contrôle rythmiqueLes caractéristiques des rimes, telles que les rires, les pauses et les interjections, sont contrôlées par des paramètres.
- contrôle de la tonalitéLa tonalité générée peut être contrôlée par une valeur d'amorçage ou un code de tonalité prédéfini.
- le contrôle des émotionsContrôlez les caractéristiques émotionnelles du discours généré en définissant les paramètres de volatilité et de pertinence de l'émotion.
- sortie en continuLa génération audio longue et la lecture basée sur les personnages pour les scénarios de dialogue complexes.
exemple de code (informatique)
from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)
ChatTTS Client
Expérience rapide
adresse web | typologie |
---|---|
Original Web | Expérience Web originale |
Forge Web | Forgez une expérience améliorée |
Linux | Installateur Python |
Échantillons | Exemples de graines de tonalité |
Clonage | Expérience de clonage de tonalité |
amélioration fonctionnelle
événement sportif | point lumineux |
---|---|
jianchang512/ChatTTS-ui | Fournit une interface API qui peut être appelée dans des applications tierces |
6drf21e/ChatTTS_colab | Fournit une sortie en continu avec la prise en charge de la génération audio longue et de la lecture partagée. |
lenML/ChatTTS-Forge | Amélioration de la voix et réduction des bruits de fond grâce à des mots repères supplémentaires |
CCmahua/ChatTTS-Enhanced | Prise en charge du traitement des fichiers par lots et de l'exportation des fichiers SRT. |
HKoon/ChatTTS-OpenVoice | s'adapter OpenVoice Effectuer un clonage sonore |
Extension des fonctionnalités
événement sportif | point lumineux |
---|---|
6drf21e/ChatTTS_Speaker | Marquage du caractère sonore et évaluation de la stabilité |
AIFSH/ComfyUI-ChatTTS | ComfyUi version, qui peut être introduite en tant que nœud de flux de travail |
MaterialShadow/ChatTTS-manager | Un système de gestion de la tonalité et une interface WebUI sont fournis. |
ChatTTSPlus - Paquet d'installation accélérée en un clic
ChatTTSPlus est une version étendue de ChatTTS qui ajoute à l'original l'accélération TensorRT, le clonage de la parole et le déploiement de modèles mobiles. Elle est facile à utiliser, propose un programme d'installation en un clic pour Windows et permet de tripler les performances avec TensorRT (de 28 tokens/s à 110 tokens/s sur les GPU Windows 3060). ChatTTSPlus est un outil de synthèse vocale puissant et facile à utiliser pour un large éventail de scénarios, avec des points forts particuliers dans les applications nécessitant des performances élevées et des capacités de clonage de la parole.
Adresse : https://github.com/warmshao/ChatTTSPlus
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...