MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Neueste AI-ToolsAktualisiert vor 7 Monaten Sharenet.ai

1.4K 0

Allgemeine Einführung

MockingBird ist ein Open-Source-Projekt, das darauf abzielt, durch KI-Technologie schnelles Sprachklonen und Text-to-Speech zu erreichen. Die Benutzer müssen nur 5 Sekunden Sprachproben zur Verfügung stellen, um beliebige Sprachinhalte zu erzeugen. Das Projekt unterstützt eine Vielzahl chinesischer Datensätze und funktioniert sowohl auf Windows- als auch auf Linux-Systemen. MockingBird verwendet das PyTorch-Framework und bietet Entwicklern und Forschern einfach zu bedienende Tools und detaillierte Installationsanweisungen.

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

Funktionsliste

Speech Cloning: Generieren Sie beliebige Sprachinhalte aus 5-Sekunden-Sprachproben
Text-to-Speech: Eingabe von Text zur Erzeugung entsprechender Sprache
Mehrsprachige Unterstützung: unterstützt Mandarin und mehrere chinesische Datensätze
Plattformübergreifender Betrieb: kompatibel mit Windows- und Linux-Systemen
Echtzeit-Verarbeitung: bietet Spracherzeugung in Echtzeit
Offener Quellcode: Der Code ist offen, um sekundäre Entwicklung und Forschung zu erleichtern.

Hilfe verwenden

Einbauverfahren

Vorbereitung der Umwelt::
- Installieren Sie Python 3.7 oder höher.
- Installieren Sie PyTorch (Version 1.9.0 empfohlen).
- Installieren Sie ffmpeg.
Projekt herunterladen::
- Öffnen Sie die MockingBird-Projektadresse, klicken Sie auf die grüne Schaltfläche "Code" und wählen Sie "Download ZIP", um die Projektdatei herunterzuladen.
- Oder verwenden Sie den git-Befehl, um es herunterzuladen:git clone https://github.com/babysor/MockingBird.git
Installation von Abhängigkeiten::
- Wechseln Sie in das Projektverzeichnis und führen Sie pip install -r requirements.txt Installieren Sie die erforderlichen Python-Pakete.
- Bei Bedarf können Sie conda verwenden, um eine virtuelle Umgebung zu erstellen und Abhängigkeiten zu installieren:conda env create -n env_name -f env.ymlund aktivieren Sie dann die Umgebung:conda activate env_name.
Modell der phonetischen Transkription

Um die Größe der Hauptdatei zu reduzieren, enthält die Datei nicht das Tonmodell, wenn Sie es separat herunterladen möchten, klicken Sie aufModell herunterladen (3G)

Verwendungsprozess

Laufzeit-Toolbox::
- in Bewegung sein demo_toolbox.pyum den Bildschirm Toolbox zu öffnen.
- Wählen Sie die Sprachmusterdatei in der Toolbox aus, geben Sie den Textinhalt ein und klicken Sie auf die Schaltfläche Generieren, um die entsprechende Sprachdatei zu erzeugen.
Ausbildungsmodelle::
- Wenn Sie Ihr eigenes Modell trainieren müssen, können Sie das Trainingstutorial im Projekt befolgen.
- Laden Sie den Trainingsdatensatz herunter, bereiten Sie ihn vor und führen Sie train.py Beginn der Ausbildung.
- Chinesische Hilfedatei für Trainingsmodelle
Fernabruf::
- MockingBird bietet eine Webserver-Funktion, die es Ihnen ermöglicht, die generierten Sprachergebnisse durch Fernaufrufe zu nutzen.
- Konfigurieren und starten Sie den Webserver, der über die API-Schnittstelle aufgerufen werden soll.

allgemeine Probleme

InstallationsfehlerVergewissern Sie sich, dass Ihre Python-Version den Anforderungen entspricht, und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
SprachqualitätDie Qualität der Sprachproben und der Umfang des Trainingsdatensatzes wirken sich auf die Effektivität der generierten Sprache aus, und es wird empfohlen, qualitativ hochwertige Sprachproben und vielfältige Datensätze für das Training zu verwenden.

Vorgefertigter Windows-Download (3,7G/mit Text-Ton-Modellierung)

百度网盘下载链接

Huggingface download

升级包下载/直接覆盖到app.exe所在目录即可

Der Artikel ist urheberrechtlich geschützt und darf nicht ohne Genehmigung vervielfältigt werden.

Tentakel-KI: Einfach zu bedienendes KI-Zeichenwerkzeug mit Unterstützung für das Training Ihres eigenen Bildstils

Neueste AI-Tools # AI Online-Bilderzeugung

vor 10 Monaten

01.4K

Arigatou Digital Human: Plattform für virtuelle Bildübertragung und Echtzeit-Interaktion - Kostenlose Erstellung von digitalen Klon-Menschen

Neueste AI-Tools # AI Digital Man # AI-Stimmenklonen

vor 11m

01.3K

Freie öffentliche APIs: eine Sammlung von mehr als 200 freien öffentlichen APIs für die KI-Fähigkeit

Neueste AI-Tools # AI Offene Dienste

vor 11m

01.6K

Pipio: KI-Videoproduktionsplattform|Digitale Zeichen|Text zu Video|Mehrsprachiges Voiceover

Neueste AI-Tools # AI Digital Man

vor 11m

01.4K

Keine Kommentare

Keine Kommentare...

MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Allgemeine Einführung

Funktionsliste