Zonos: 고품질 음성 합성 및 음성 복제 도구

최신 AI 도구5개월 전에 게시 됨 Sharenet.ai
1.4K 0
吐司AI

일반 소개

Zonos 是由 Zyphra 开发的一款开源语音合成与语音克隆工具。Zonos-v0.1 版本采用了先进的 트랜스포머 和混合模型,能够生成高质量的语音输出。该工具支持多种语言,包括英语、日语、中文、法语和德语,并提供细致的音频质量和情感控制。Zonos 的语音克隆功能可以在提供短短几秒钟的参考音频后,生成高度自然的语音。用户可以通过 GitHub 获取模型权重和示例代码,并在 Huggingface 上进行试用。

Zonos:高质量语音合成与语音克隆工具

 

기능 목록

  • 零样本 TTS 语音克隆:输入文本和10-30秒的说话者样本,即可生成高质量的语音输出。
  • 音频前缀输入:添加文本和音频前缀,以实现更丰富的说话者匹配。
  • 다국어 지원:支持英语、日语、中文、法语和德语。
  • 音频质量和情感控制:提供对生成音频的多方面细致控制,包括说话速度、音高变化、音频质量和情感(如快乐、恐惧、悲伤和愤怒)。
  • 实时语音生成:支持实时生成高保真语音。

 

도움말 사용

설치 프로세스

  1. 복제 프로젝트:在终端中运行以下命令以克隆 Zonos 项目: bash
    git clone https://github.com/Zyphra/Zonos.git
    cd Zonos
  2. 종속성 설치:使用以下命令安装所需的 Python 依赖: bash
    pip install -r requirements.txt
  3. 모델 가중치 다운로드:从 Huggingface 下载所需的模型权重,并将其放置在项目目录中。

사용법

  1. 모델 로드:在 Python 环境中加载 Zonos 模型:
    import torch
    import torchaudio
    from zonos.model import Zonos
    from zonos.conditioning import make_cond_dict
    model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")
    
  2. 生成语音:提供文本和说话者样本,生成语音输出: python
    wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
    speaker = model.make_speaker_embedding(wav, sampling_rate)
    cond_dict = make_cond_dict(text="Hello, world!", speaker=speaker, language="en-us")
    conditioning = model.prepare_conditioning(cond_dict)
    codes = model.generate(conditioning)
    wavs = model.autoencoder.decode(codes).cpu()
    torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
  3. 使用 Gradio 接口:推荐使用 Gradio 接口进行语音生成: bash
    uv run gradio_interface.py
    # 或者
    python gradio_interface.py
    这将生成一个 sample.wav 文件,保存在项目根目录中。

세부 기능 작동 흐름

  1. 零样本 TTS 语音克隆::
    • 输入所需文本和10-30秒的说话者样本,模型将生成高质量的语音输出。
  2. 音频前缀输入::
    • 添加文本和音频前缀,以实现更丰富的说话者匹配。例如,可以使用低语音频前缀来生成低语效果。
  3. 다국어 지원::
    • 选择所需语言(如英语、日语、中文、法语或德语),模型将生成相应语言的语音输出。
  4. 音频质量和情感控制::
    • 使用模型的条件设置功能,细致控制生成音频的各个方面,包括说话速度、音高变化、音频质量和情感(如快乐、恐惧、悲伤和愤怒)。
  5. 实时语音生成::
    • 使用 Gradio 接口或其他实时生成方法,快速生成高保真语音。
© 저작권 정책
AiPPT

관련 게시물

댓글 없음

없음
댓글 없음...