소닉: 오디오 기반 인물 이미지로 생생한 얼굴 표정이 담긴 디지털 데모 동영상 생성

1.4K 0

일반 소개

Sonic 是一个专注于全球音频感知的创新平台，旨在通过音频驱动生成生动的肖像动画。该平台由腾讯和浙江大学的研究团队开发，利用音频信息来控制面部表情和头部运动，从而生成自然流畅的动画视频。Sonic 的核心技术包括上下文增强音频学习、运动解耦控制器和时间感知位置移位融合模块。这些技术使得 Sonic 能够在不同风格的图像和各种类型的音频输入下，生成稳定且逼真的长视频。

该项目的代码和权重将在通过内部开源审核后发布（已发布），Windows用户安装说明.

演示：https://huggingface.co/spaces/xiaozhongji/Sonic

기능 목록

上下文增强音频学习：提取长时间片段的音频知识，提供面部表情和唇部运动的先验信息。
运动解耦控制器：独立控制头部和表情运动，实现更自然的动画效果。
时间感知位置移位融合：融合全局音频信息，生成长时间稳定的视频。
多样化视频生成：支持不同风格的图像和多种分辨率的视频生成。
与开源和闭源方法的对比：展示 Sonic 在表情丰富度和头部运动自然度上的优势。

도움말 사용

설치 프로세스

Sonic 平台目前正在进行内部开源审核，代码和权重将在审核完成后上传至 GitHub。用户可以通过以下步骤安装和使用 Sonic：

访问 Sonic 的 GitHub 页面。
복제 창고:git clone https://github.com/jixiaozhong/Sonic.git
종속성을 설치합니다:pip install -r requirements.txt
下载预训练模型权重，并将其放置在指定目录。

사용 프로세스

准备输入数据：收集需要生成动画的视频图像和音频文件。
运行生成脚本：使用提供的脚本运行生成过程，例如：python generate.py --image input.jpg --audio input.wav
조정 매개변수：根据需要调整生成脚本中的参数，以获得最佳效果。
查看输出：生成的视频将保存在指定的输出目录中。

세부 기능 작동

上下文增强音频学习：通过长时间片段的音频学习，Sonic 能够捕捉音频中的细微变化，从而生成更自然的面部表情和唇部运动。
运动解耦控制器：该控制器将头部运动和表情运动分开处理，使得生成的动画更加逼真。用户可以通过调整控制器参数，优化动画效果。
时间感知位置移位融合：这一模块通过融合全局音频信息，确保生成的视频在长时间内保持稳定。用户可以通过调整时间窗口参数，控制视频的平滑度和稳定性。
多样化视频生成：Sonic 支持不同风格的图像（如卡通、写实）和多种分辨率的视频生成。用户可以根据需求选择合适的图像和音频输入，生成符合预期的视频效果。