MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Neueste AI-ToolsAktualisiert vor 7 Monaten Sharenet.ai
1.4K 0
吐司AI

Allgemeine Einführung

MockingBird ist ein Open-Source-Projekt, das darauf abzielt, durch KI-Technologie schnelles Sprachklonen und Text-to-Speech zu erreichen. Die Benutzer müssen nur 5 Sekunden Sprachproben zur Verfügung stellen, um beliebige Sprachinhalte zu erzeugen. Das Projekt unterstützt eine Vielzahl chinesischer Datensätze und funktioniert sowohl auf Windows- als auch auf Linux-Systemen. MockingBird verwendet das PyTorch-Framework und bietet Entwicklern und Forschern einfach zu bedienende Tools und detaillierte Installationsanweisungen.

MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

 

MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

 

Funktionsliste

  • Speech Cloning: Generieren Sie beliebige Sprachinhalte aus 5-Sekunden-Sprachproben
  • Text-to-Speech: Eingabe von Text zur Erzeugung entsprechender Sprache
  • Mehrsprachige Unterstützung: unterstützt Mandarin und mehrere chinesische Datensätze
  • Plattformübergreifender Betrieb: kompatibel mit Windows- und Linux-Systemen
  • Echtzeit-Verarbeitung: bietet Spracherzeugung in Echtzeit
  • Offener Quellcode: Der Code ist offen, um sekundäre Entwicklung und Forschung zu erleichtern.

 

Hilfe verwenden

Einbauverfahren

  1. Vorbereitung der Umwelt::
    • Installieren Sie Python 3.7 oder höher.
    • Installieren Sie PyTorch (Version 1.9.0 empfohlen).
    • Installieren Sie ffmpeg.
  2. Projekt herunterladen::
    • Öffnen Sie die MockingBird-Projektadresse, klicken Sie auf die grüne Schaltfläche "Code" und wählen Sie "Download ZIP", um die Projektdatei herunterzuladen.
    • Oder verwenden Sie den git-Befehl, um es herunterzuladen:git clone https://github.com/babysor/MockingBird.git
  3. Installation von Abhängigkeiten::
    • Wechseln Sie in das Projektverzeichnis und führen Sie pip install -r requirements.txt Installieren Sie die erforderlichen Python-Pakete.
    • Bei Bedarf können Sie conda verwenden, um eine virtuelle Umgebung zu erstellen und Abhängigkeiten zu installieren:conda env create -n env_name -f env.ymlund aktivieren Sie dann die Umgebung:conda activate env_name.
  4. Modell der phonetischen Transkription

Um die Größe der Hauptdatei zu reduzieren, enthält die Datei nicht das Tonmodell, wenn Sie es separat herunterladen möchten, klicken Sie aufModell herunterladen (3G)

 

Verwendungsprozess

  1. Laufzeit-Toolbox::
    • in Bewegung sein demo_toolbox.pyum den Bildschirm Toolbox zu öffnen.
    • Wählen Sie die Sprachmusterdatei in der Toolbox aus, geben Sie den Textinhalt ein und klicken Sie auf die Schaltfläche Generieren, um die entsprechende Sprachdatei zu erzeugen.
  2. Ausbildungsmodelle::
    • Wenn Sie Ihr eigenes Modell trainieren müssen, können Sie das Trainingstutorial im Projekt befolgen.
    • Laden Sie den Trainingsdatensatz herunter, bereiten Sie ihn vor und führen Sie train.py Beginn der Ausbildung.
    • Chinesische Hilfedatei für Trainingsmodelle
  3. Fernabruf::
    • MockingBird bietet eine Webserver-Funktion, die es Ihnen ermöglicht, die generierten Sprachergebnisse durch Fernaufrufe zu nutzen.
    • Konfigurieren und starten Sie den Webserver, der über die API-Schnittstelle aufgerufen werden soll.

allgemeine Probleme

  • InstallationsfehlerVergewissern Sie sich, dass Ihre Python-Version den Anforderungen entspricht, und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
  • SprachqualitätDie Qualität der Sprachproben und der Umfang des Trainingsdatensatzes wirken sich auf die Effektivität der generierten Sprache aus, und es wird empfohlen, qualitativ hochwertige Sprachproben und vielfältige Datensätze für das Training zu verwenden.

 

Vorgefertigter Windows-Download (3,7G/mit Text-Ton-Modellierung)

百度网盘下载链接

Huggingface download

升级包下载/直接覆盖到app.exe所在目录即可

© urheberrechtliche Erklärung
AiPPT

Verwandte Beiträge

Keine Kommentare

keine
Keine Kommentare...