GPT SoVITS: 혁신적인 음성 생성 및 음성 복제 도구

1.8K 0

일반 소개

GPT-SoVITS는 오픈 소스 음성 변환 및 합성 도구로, GPT 모델과 SoVITS 보이스 체인저 기술을 결합한 것입니다. 이 도구는 샘플이 거의 없거나 전혀 없는 상태에서 즉각적인 텍스트-음성 변환과 단 5초의 오디오 샘플로 음성 스타일 마이그레이션을 지원합니다. 다국어 지원, 내장된 트랙 분리 및 기타 유용한 기능을 통해 초보자도 쉽게 개인화된 음성 모델을 만들 수 있습니다. 영어, 일본어, 중국어로 제공되며, WebUI 도구 세트와 결합하여 데이터 전처리부터 모델 훈련까지 모든 작업을 지원합니다. AI 초보자든 전문가든 누구나 음성 기술의 매력을 경험할 수 있습니다.

기능 목록

제로 샘플 TTS: 5초 분량의 음성 샘플을 입력하면 텍스트 음성 변환을 즉시 체험할 수 있습니다.
샘플 적은 TTS: 1분 분량의 훈련 데이터만으로 모델을 미세 조정하여 사운드 유사성과 사실감을 높입니다.
다국어 지원: 현재 영어, 일본어, 한국어, 광둥어, 북경어 등 학습 세트와 다른 언어에 대한 추론을 지원합니다.
웹UI 도구: 통합 음성 반주 분리, 자동 훈련 세트 세분화, 중국어 ASR 및 텍스트 주석을 통해 초보자도 훈련 데이터와 GPT/SoVITS 모델을 생성할 수 있습니다.

도움말 사용

설치 프로세스

Windows 사용자

통합 패키지를 다운로드하세요.
더블 클릭go-webui.batGPT-SoVITS-WebUI를 시작합니다.
인터페이스의 지시를 따릅니다.

Linux 사용자

가상 환경을 만듭니다:conda create -n GPTSoVits python=3.9
가상 환경을 활성화합니다:conda activate GPTSoVits
종속성을 설치합니다:bash install.sh

macOS 사용자

Xcode 명령줄 도구를 설치합니다:xcode-select --install
FFmpeg를 설치합니다:brew install ffmpeg

가상 환경을 만들고 종속 요소를 설치합니다:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

사용 프로세스

데이터 준비WebUI 인터페이스에 업로드할 최소 5초 분량의 음성 샘플을 준비합니다.
모델 교육샘플 수 0 또는 소수 모드를 선택하고 해당 학습 데이터를 업로드합니다.
음성 전사텍스트 콘텐츠를 입력하고 대상 음성 샘플을 선택한 다음 변환 버튼을 클릭합니다.
결과 내보내기: 변환이 완료되면 결과 오디오 파일을 다운로드할 수 있습니다.

기능

제로 샘플 TTSWebUI 인터페이스에서 5초 음성 샘플을 업로드하고 텍스트 내용을 입력한 후 변환 버튼을 클릭하여 해당 음성 파일을 생성합니다.
TTS 샘플 감소생성된 음성의 유사성과 사실감을 높이기 위해 모델 미세 조정을 위한 최소 1분 분량의 학습 데이터를 업로드합니다.
다국어 지원입력할 다른 언어로 된 텍스트 콘텐츠를 선택하면 시스템이 자동으로 언어 변환 및 음성 생성을 수행합니다.
웹UI 도구음성 반주 분리, 자동 훈련 세트 분할, 중국어 ASR 및 텍스트 주석과 같은 기본 제공 기능을 사용하여 데이터 처리 및 모델 훈련 프로세스를 간소화합니다.