Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

최신 AI 도구2개월 전 업데이트 Sharenet.ai
1.2K 0
Trae

일반 소개

Sonic 是一个专注于全球音频感知的创新平台,旨在通过音频驱动生成生动的肖像动画。该平台由腾讯和浙江大学的研究团队开发,利用音频信息来控制面部表情和头部运动,从而生成自然流畅的动画视频。Sonic 的核心技术包括上下文增强音频学习、运动解耦控制器和时间感知位置移位融合模块。这些技术使得 Sonic 能够在不同风格的图像和各种类型的音频输入下,生成稳定且逼真的长视频。

该项目的代码和权重将在通过内部开源审核后发布(已发布),Windows用户安装说明.

Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

演示:https://huggingface.co/spaces/xiaozhongji/Sonic

 

Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

 

 

기능 목록

  • 上下文增强音频学习:提取长时间片段的音频知识,提供面部表情和唇部运动的先验信息。
  • 运动解耦控制器:独立控制头部和表情运动,实现更自然的动画效果。
  • 时间感知位置移位融合:融合全局音频信息,生成长时间稳定的视频。
  • 多样化视频生成:支持不同风格的图像和多种分辨率的视频生成。
  • 与开源和闭源方法的对比:展示 Sonic 在表情丰富度和头部运动自然度上的优势。

 

도움말 사용

설치 프로세스

Sonic 平台目前正在进行内部开源审核,代码和权重将在审核完成后上传至 GitHub。用户可以通过以下步骤安装和使用 Sonic:

  1. 访问 Sonic 的 GitHub 页面。
  2. 복제 창고:git clone https://github.com/jixiaozhong/Sonic.git
  3. 종속성을 설치합니다:pip install -r requirements.txt
  4. 下载预训练模型权重,并将其放置在指定目录。

사용 프로세스

  1. 准备输入数据:收集需要生成动画的视频图像和音频文件。
  2. 运行生成脚本:使用提供的脚本运行生成过程,例如:python generate.py --image input.jpg --audio input.wav
  3. 조정 매개변수:根据需要调整生成脚本中的参数,以获得最佳效果。
  4. 查看输出:生成的视频将保存在指定的输出目录中。

세부 기능 작동

  • 上下文增强音频学习:通过长时间片段的音频学习,Sonic 能够捕捉音频中的细微变化,从而生成更自然的面部表情和唇部运动。
  • 运动解耦控制器:该控制器将头部运动和表情运动分开处理,使得生成的动画更加逼真。用户可以通过调整控制器参数,优化动画效果。
  • 时间感知位置移位融合:这一模块通过融合全局音频信息,确保生成的视频在长时间内保持稳定。用户可以通过调整时间窗口参数,控制视频的平滑度和稳定性。
  • 多样化视频生成:Sonic 支持不同风格的图像(如卡通、写实)和多种分辨率的视频生成。用户可以根据需求选择合适的图像和音频输入,生成符合预期的视频效果。

 

Sonic 一键安装包

百度:https://pan.baidu.com/share/init?surl=iCR4l4ClSRZswm1E2K_NNA&pwd=8520

© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...