VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

최신 AI 도구8 개월 전에 게시 됨 Sharenet.ai
1.3K 0
吐司AI

일반 소개

VideoChat 是一个基于开源技术的实时语音交互数字人项目,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。该项目允许用户自定义数字人的形象与音色,并支持音色克隆及唇形同步,支持视频流输出,首包延迟低至3秒。用户可以通过在线demo体验其功能,或通过详细的技术文档进行本地部署和使用。

VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

演示地址:https://www.modelscope.cn/studios/AI-ModelScope/video_chat

 

기능 목록

  • 实时语音交互:支持端到端语音方案和级联方案
  • 自定义形象与音色:用户可以根据需求自定义数字人的外观和声音
  • 语音克隆:支持克隆用户的声音,提供个性化的语音体验
  • 低延迟:首包延迟低至3秒,确保流畅的交互体验
  • 开源项目:基于开源技术,用户可以自由修改和扩展功能

 

도움말 사용

설치 프로세스

  1. 환경 구성
    • 操作系统:Ubuntu 22.04
    • Python 版本:3.10
    • CUDA 版本:12.2
    • Torch 版本:2.1.2
  2. 복제 프로젝트
    git lfs install
    git clone https://github.com/Henry-23/VideoChat.git
    cd video_chat
    
  3. 创建虚拟环境并安装依赖
    conda create -n metahuman python=3.10
    conda activate metahuman
    pip install -r requirements.txt
    pip install --upgrade gradio
    
  4. 下载权重文件
    • 推荐使用创空间下载,已设置 git lfs 追踪权重文件
    git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
    
  5. 서비스 시작
    python app.py
    

사용 프로세스

  1. 配置API-KEY::
    • 如果本地机器性能有限,可以使用阿里云大模型服务平台百炼提供的Qwen API和CosyVoice API,在app.py中配置API-KEY。
  2. 本地推理::
    • 如果不使用API-KEY,可以在src/llm.py노래로 응답src/tts.py中配置本地推理方式,删除不需要的API调用代码。
  3. 서비스 시작::
    • 움직여야 합니다.python app.py启动服务。
  4. 自定义数字人形象::
    • 존재/data/video/目录中添加录制好的数字人形象视频。
    • 수정/src/thg.py中的Muse_Talk类的avatar_list,加入形象名和bbox_shift。
    • 존재app.py中Gradio的avatar_name中加入数字人形象名后重新启动服务,等待完成初始化。

세부 운영 절차

  • 自定义形象与音色: in /data/video/ 目录中添加录制好的数字人形象视频,并在 src/thg.py 수정 Muse_Talk 类的 avatar_list,加入形象名和 bbox_shift 매개변수.
  • 음성 복제: in app.py 中配置 CosyVoice API 或使用 Edge_TTS 进行本地推理。
  • 端到端语音方案사용 GLM-4-Voice 模型,提供高效的语音生成和识别功能。

 

  1. 访问本地部署的服务地址,进入Gradio界面。
  2. 选择或上传自定义的数字人形象视频。
  3. 配置语音克隆功能,上传用户的语音样本。
  4. 开始实时语音交互,体验低延迟的对话功能。
© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...