GPT SoVITS: 혁신적인 음성 생성 및 음성 복제 도구
일반 소개
GPT-SoVITS는 오픈 소스 음성 변환 및 합성 도구로, GPT 모델과 SoVITS 보이스 체인저 기술을 결합한 것입니다. 이 도구는 샘플이 거의 없거나 전혀 없는 상태에서 즉각적인 텍스트-음성 변환과 단 5초의 오디오 샘플로 음성 스타일 마이그레이션을 지원합니다. 다국어 지원, 내장된 트랙 분리 및 기타 유용한 기능을 통해 초보자도 쉽게 개인화된 음성 모델을 만들 수 있습니다. 영어, 일본어, 중국어로 제공되며, WebUI 도구 세트와 결합하여 데이터 전처리부터 모델 훈련까지 모든 작업을 지원합니다. AI 초보자든 전문가든 누구나 음성 기술의 매력을 경험할 수 있습니다.
기능 목록
- 제로 샘플 TTS: 5초 분량의 음성 샘플을 입력하면 텍스트 음성 변환을 즉시 체험할 수 있습니다.
- 샘플 적은 TTS: 1분 분량의 훈련 데이터만으로 모델을 미세 조정하여 사운드 유사성과 사실감을 높입니다.
- 다국어 지원: 현재 영어, 일본어, 한국어, 광둥어, 북경어 등 학습 세트와 다른 언어에 대한 추론을 지원합니다.
- 웹UI 도구: 통합 음성 반주 분리, 자동 훈련 세트 세분화, 중국어 ASR 및 텍스트 주석을 통해 초보자도 훈련 데이터와 GPT/SoVITS 모델을 생성할 수 있습니다.
도움말 사용
설치 프로세스
Windows 사용자
- 통합 패키지를 다운로드하세요.
- 더블 클릭
go-webui.bat
GPT-SoVITS-WebUI를 시작합니다. - 인터페이스의 지시를 따릅니다.
Linux 사용자
- 가상 환경을 만듭니다:
conda create -n GPTSoVits python=3.9
- 가상 환경을 활성화합니다:
conda activate GPTSoVits
- 종속성을 설치합니다:
bash install.sh
macOS 사용자
- Xcode 명령줄 도구를 설치합니다:
xcode-select --install
- FFmpeg를 설치합니다:
brew install ffmpeg
- 가상 환경을 만들고 종속 요소를 설치합니다:
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits pip install -r requirements.txt
사용 프로세스
- 데이터 준비WebUI 인터페이스에 업로드할 최소 5초 분량의 음성 샘플을 준비합니다.
- 모델 교육샘플 수 0 또는 소수 모드를 선택하고 해당 학습 데이터를 업로드합니다.
- 음성 전사텍스트 콘텐츠를 입력하고 대상 음성 샘플을 선택한 다음 변환 버튼을 클릭합니다.
- 결과 내보내기: 변환이 완료되면 결과 오디오 파일을 다운로드할 수 있습니다.
기능
- 제로 샘플 TTSWebUI 인터페이스에서 5초 음성 샘플을 업로드하고 텍스트 내용을 입력한 후 변환 버튼을 클릭하여 해당 음성 파일을 생성합니다.
- TTS 샘플 감소생성된 음성의 유사성과 사실감을 높이기 위해 모델 미세 조정을 위한 최소 1분 분량의 학습 데이터를 업로드합니다.
- 다국어 지원입력할 다른 언어로 된 텍스트 콘텐츠를 선택하면 시스템이 자동으로 언어 변환 및 음성 생성을 수행합니다.
- 웹UI 도구음성 반주 분리, 자동 훈련 세트 분할, 중국어 ASR 및 텍스트 주석과 같은 기본 제공 기능을 사용하여 데이터 처리 및 모델 훈련 프로세스를 간소화합니다.
배포 옵션 통합
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...