ChatTTS : un modèle de génération de la parole qui imite la voix d'une personne réelle qui parle (ChatTTS one-click acceleration package)

Derniers outils d'IAMise à jour il y a 5 mois Sharenet.ai

1.7K 0

Introduction générale

ChatTTS est un modèle de parole génératif conçu pour les scénarios de dialogue. Il génère une parole naturelle et expressive, prend en charge plusieurs langues et plusieurs locuteurs, et convient aux dialogues interactifs. Le modèle surpasse la plupart des modèles de synthèse vocale à source ouverte en prédisant et en contrôlant des caractéristiques rythmiques fines telles que le rire, les pauses et les interjections.ChatTTS fournit des modèles pré-entraînés pour soutenir la recherche et le développement, principalement à des fins académiques.

Liste des fonctions

Prise en charge multilingueLes langues suivantes sont prises en charge : le chinois et l'anglais, et d'autres langues seront ajoutées à l'avenir.
Prise en charge de plusieurs interlocuteursLa capacité de générer des voix d'interlocuteurs multiples permet de l'utiliser pour des dialogues interactifs.
Contrôle rythmique précisLes caractéristiques rythmiques telles que les rires, les pauses et les interjections peuvent être prédites et contrôlées.
Modèle de pré-entraînementLe système de gestion de l'information : il fournit 40 000 heures de modèles pré-entraînés afin de soutenir la recherche et le développement ultérieurs.
source ouverteLe code est ouvert sur GitHub pour une utilisation académique et de recherche.

Utiliser l'aide

Processus d'installation

Clonage du code du projet: :

git clone https://github.com/2noise/ChatTTS.git

Installation des dépendances: :

cd ChatTTS
pip install -r requirements.txt

Télécharger le modèle pré-entraînéTélécharger le modèle pré-entraîné à partir de HuggingFace ou ModelScope et le placer dans le répertoire spécifié.

Utilisation

Modèles de chargement: :

from chattts import ChatTTS
model = ChatTTS.load_model('path/to/pretrained/model')

Générer un discours: :

text = "你好，欢迎使用ChatTTS！"
audio = model.synthesize(text)

Enregistrement de fichiers audio: :

with open('output.wav', 'wb') as f:
f.write(audio)

Fonctionnement détaillé

saisie de texteLe système de saisie de texte est compatible avec la saisie mixte de textes chinois et anglais.
Contrôle rythmiqueLes caractéristiques des rimes, telles que les rires, les pauses et les interjections, sont contrôlées par des paramètres.
contrôle de la tonalitéLa tonalité générée peut être contrôlée par une valeur d'amorçage ou un code de tonalité prédéfini.
le contrôle des émotionsContrôlez les caractéristiques émotionnelles du discours généré en définissant les paramètres de volatilité et de pertinence de l'émotion.
sortie en continuLa génération audio longue et la lecture basée sur les personnages pour les scénarios de dialogue complexes.

exemple de code (informatique)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好，欢迎使用ChatTTS！"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

ChatTTS Client

Expérience rapide

adresse web	typologie
Original Web	Expérience Web originale
Forge Web	Forgez une expérience améliorée
Linux	Installateur Python
Échantillons	Exemples de graines de tonalité
Clonage	Expérience de clonage de tonalité

amélioration fonctionnelle

événement sportif	point lumineux
jianchang512/ChatTTS-ui	Fournit une interface API qui peut être appelée dans des applications tierces
6drf21e/ChatTTS_colab	Fournit une sortie en continu avec la prise en charge de la génération audio longue et de la lecture partagée.
lenML/ChatTTS-Forge	Amélioration de la voix et réduction des bruits de fond grâce à des mots repères supplémentaires
CCmahua/ChatTTS-Enhanced	Prise en charge du traitement des fichiers par lots et de l'exportation des fichiers SRT.
HKoon/ChatTTS-OpenVoice	s'adapter OpenVoice Effectuer un clonage sonore

Extension des fonctionnalités

événement sportif	point lumineux
6drf21e/ChatTTS_Speaker	Marquage du caractère sonore et évaluation de la stabilité
AIFSH/ComfyUI-ChatTTS	ComfyUi version, qui peut être introduite en tant que nœud de flux de travail
MaterialShadow/ChatTTS-manager	Un système de gestion de la tonalité et une interface WebUI sont fournis.

ChatTTSPlus - Paquet d'installation accélérée en un clic

ChatTTSPlus est une version étendue de ChatTTS qui ajoute à l'original l'accélération TensorRT, le clonage de la parole et le déploiement de modèles mobiles. Elle est facile à utiliser, propose un programme d'installation en un clic pour Windows et permet de tripler les performances avec TensorRT (de 28 tokens/s à 110 tokens/s sur les GPU Windows 3060). ChatTTSPlus est un outil de synthèse vocale puissant et facile à utiliser pour un large éventail de scénarios, avec des points forts particuliers dans les applications nécessitant des performances élevées et des capacités de clonage de la parole.

Adresse : https://github.com/warmshao/ChatTTSPlus