VideoChat：自定义形象和音色克隆的实时语音交互数字人，支持端到端语音方案和级联方案

1.3K 0

일반 소개

VideoChat 是一个基于开源技术的实时语音交互数字人项目，支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。该项目允许用户自定义数字人的形象与音色，并支持音色克隆及唇形同步，支持视频流输出，首包延迟低至3秒。用户可以通过在线demo体验其功能，或通过详细的技术文档进行本地部署和使用。

VideoChat：自定义形象和音色克隆的实时语音交互数字人，支持端到端语音方案和级联方案

演示地址：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

기능 목록

实时语音交互：支持端到端语音方案和级联方案
自定义形象与音色：用户可以根据需求自定义数字人的外观和声音
语音克隆：支持克隆用户的声音，提供个性化的语音体验
低延迟：首包延迟低至3秒，确保流畅的交互体验
开源项目：基于开源技术，用户可以自由修改和扩展功能

도움말 사용

설치 프로세스

환경 구성
- 操作系统：Ubuntu 22.04
- Python 版本：3.10
- CUDA 版本：12.2
- Torch 版本：2.1.2

복제 프로젝트

git lfs install
git clone https://github.com/Henry-23/VideoChat.git
cd video_chat

创建虚拟环境并安装依赖

conda create -n metahuman python=3.10
conda activate metahuman
pip install -r requirements.txt
pip install --upgrade gradio

下载权重文件
- 推荐使用创空间下载，已设置 git lfs 追踪权重文件
```
git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
```
서비스 시작
```
python app.py
```

사용 프로세스

配置API-KEY::
- 如果本地机器性能有限，可以使用阿里云大模型服务平台百炼提供的Qwen API和CosyVoice API，在app.py中配置API-KEY。
本地推理::
- 如果不使用API-KEY，可以在src/llm.py노래로 응답src/tts.py中配置本地推理方式，删除不需要的API调用代码。
서비스 시작::
- 움직여야 합니다.python app.py启动服务。
自定义数字人形象::
- 존재/data/video/目录中添加录制好的数字人形象视频。
- 수정/src/thg.py中的Muse_Talk类的avatar_list，加入形象名和bbox_shift。
- 존재app.py中Gradio的avatar_name中加入数字人形象名后重新启动服务，等待完成初始化。

세부 운영 절차

自定义形象与音色: in /data/video/ 目录中添加录制好的数字人形象视频，并在 src/thg.py 수정 Muse_Talk 类的 avatar_list，加入形象名和 bbox_shift 매개변수.
음성 복제: in app.py 中配置 CosyVoice API 或使用 Edge_TTS 进行本地推理。
端到端语音方案사용 GLM-4-Voice 模型，提供高效的语音生成和识别功能。