JoyHallo - 京东开源的AI数字人模型

JoyHallo是什么

JoyHallo是京东开源的AI数字人模型，专为普通话设计，支持将音频转化为逼真的说话视频。JoyHallo基于wav2vec2模型嵌入音频特征，用半解耦结构，提升唇部运动预测准确性，支持生成英语视频。JoyHallo训练数据集涵盖多种年龄和风格的普通话视频。JoyHallo在虚拟主播、在线教育、客户服务和广告制作等领域有广泛应用，能提供高效、生动且个性化的服务体验，推动相关行业的智能化发展。

JoyHallo的主要功能

音频驱动的视频生成：根据输入的音频信号，自动生成与之匹配的说话视频。
跨语言生成能力：除擅长普通话视频生成外，JoyHallo具备生成英语说话视频的能力。
唇部同步：模型能精确地同步音频与视频中的唇部运动。
面部表情生成：根据音频中的情感和语调，生成相应的面部表情。

JoyHallo的官网地址

项目官网：https://jdh-algo.github.io/JoyHallo/
GitHub仓库：https://github.com/jdh-algo/JoyHallo
HuggingFace模型库：https://huggingface.co/jdh-algo/JoyHallo-v1
arXiv技术论文：https://arxiv.org/pdf/2409.13268

如何使用JoyHallo

环境准备：
- 硬件要求：建议使用具有高性能GPU的计算机，例如NVIDIA系列显卡（如RTX 30系列或更高），加速模型的推理过程。
- 软件环境：确保系统已安装Python（推荐3.8及以上版本）。基于下命令安装PyTorch（根据CUDA版本选择合适的安装命令）：

pip install torch torchvision torchaudio

安装依赖：
- 克隆JoyHallo的GitHub仓库：

git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo

- 安装项目依赖：

pip install -r requirements.txt

数据准备：如果用自己的数据进行训练或微调，需要按照JoyHallo的数据格式准备数据。JoyHallo的数据集通常包含音频文件和对应的视频文件。音频文件需要是wav格式，视频文件需要是mp4格式。如果只是使用预训练模型进行推理，直接跳过这一步。
模型加载与推理：
- 加载预训练模型：JoyHallo的预训练模型基于Hugging Face模型库加载。

from transformers import AutoModelForAudioToVideo, AutoProcessor

model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)

- 音频预处理：将音频文件转换为模型所需的格式：

from datasets import load_dataset

dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")

- 生成视频：用模型进行推理，生成视频：

outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")

JoyHallo的核心优势

普通话优化：JoyHallo专为普通话设计，能精准匹配唇部动作，精确模拟普通话中复杂的声母和韵母发音，如“zh”、“ch”、“sh”等。支持根据音频中的情感和语调生成丰富的面部表情，让视频更具感染力。
跨语言能力：除普通话，JoyHallo具备生成英语视频的能力，支持多语言应用场景，如跨国企业客服、国际教育等，具有广泛的适用性。
高效结构：基于半解耦结构，将音频特征嵌入和视频生成过程分离，显著提升推理速度，比传统全耦合模型快14.3%。
应用场景丰富：JoyHallo适用多种行业和场景，包括虚拟主播（新闻播报、天气预报、体育赛事解说）、在线教育（语言学习、在线课程）、客户服务（虚拟客服代表）等场景。
开源资源：提供开源数据集（jdh-Hallo数据集），包含多种年龄和说话风格的普通话视频数据集，涵盖日常对话和专业医疗话题。项目提供详细的模型训练方法和代码，方便开发者进行定制化开发和优化。