推荐12款免费在本地部署的数字人软件

Nouvelles de l'IAMise à jour il y a 5 mois Sharenet.ai

1.5K 0

在AI的快速发展中，数字人（Digital Humans）已经逐渐成熟，可以低成本的快速生成。因广泛的商业应用场景，受到大家的关注。无论是在虚拟现实（VR）、增强现实（AR）还是影视制作、游戏开发、品牌宣传，数字人都发挥着重要作用。

广义上数字人有3D建模（包含动作捕捉）数字人、静态2D形象数字人（含真人）、真人换脸类数字人。

本文主要介绍个人形象克隆形象类数字人，属于静态2D形象数字人，包含三个基本功能点：真人形象、语音克隆、口型同步。

注1：部分项目不包含语音生成（克隆）部分，这并不是重点，请可单独部署，市场中有很多优秀的AI语音克隆项目.

注2：目前2D静态数字人质量差异主要在口型同步，以及“视频动作”是否自然。你可以尝试单独优化口型同步节点。

注3：换脸+克隆声音也是快速生成数字人的方法，适合维持公共发言人形象、声音不变，不包含在以下方案中。先进的视频换脸普技术普及后存在风险，因此不介绍。

AIGCPanel : clone open-source du système d'intégration digital man, déploiement en un clic du client digital man gratuit

AigcPanel是一款面向所有用户的一站式AI数字人制作系统，采用electron+vue3+typescript技术栈开发，支持Windows系统一键部署。系统设计以用户友好为核心，即使是技术基础薄弱的用户也能轻松掌握。主要功能包括视频数字人合成、语音合成、语音克隆等，并提供完善的本地模型管理功能。系统支持多语言界面（包含简体中文和英语），集成了 MuseTalk 、 cosyvoice 等多个成熟模型的一键启动包。特别值得一提的是，系统在视频合成方面支持视频画面和声音的换口型匹配技术，在语音合成方面提供丰富的声音参数设置选项。作为一个开源项目，AigcPanel基于AGPL-3.0协议发布，同时强调合规使用，明确禁止用于任何违法违规业务。

DUIX：实时互动的智能数字人，支持多平台一键部署

DUIX（Dialogue User Interface System）是由硅基智能创建的AI驱动的数字人交互平台。通过开源数字人交互功能，开发者可以轻松集成大规模模型、自动语音识别（ASR）和文本转语音（TTS）功能，实现与数字人的实时交互。DUIX支持在Android和iOS等多个平台上一键部署，使每个开发者都能轻松创建智能和个性化的数字人代理，并将其应用于各个行业。该平台具有低部署成本、低网络依赖性和多样化功能，能够满足视频、媒体、客户服务、金融、广播电视等多个行业的需求。

EchoMimic：音频驱动的逼真肖像动画

EchoMimic 是一个开源项目，旨在通过音频驱动生成逼真的肖像动画。该项目由蚂蚁集团的终端技术部门开发，利用可编辑的标志点条件，结合音频和面部标志点生成动态的肖像视频。EchoMimic 在多个公共数据集和自有数据集上进行了全面比较，展示了其在定量和定性评估中的优越性能。

Sonic：全新数字人开源方案，音频驱动生成面部表情生动的数字人口播视频

Sonic 是一个专注于全球音频感知的创新平台，旨在通过音频驱动生成生动的肖像动画。该平台由腾讯和浙江大学的研究团队开发，利用音频信息来控制面部表情和头部运动，从而生成自然流畅的动画视频。Sonic 的核心技术包括上下文增强音频学习、运动解耦控制器和时间感知位置移位融合模块。这些技术使得 Sonic 能够在不同风格的图像和各种类型的音频输入下，生成稳定且逼真的长视频。

Hallo2：音频驱动生成口型/表情同步的肖像视频（含Windows一键安装）

Hallo2 是由复旦大学和百度联合开发的一个开源项目，旨在通过音频驱动生成高分辨率的人像动画。该项目利用先进的生成对抗网络（GAN）和时间对齐技术，实现了4K分辨率和长达1小时的视频生成。Hallo2 还支持通过文本提示增强生成内容的多样性和可控性。

VideoChat：自定义形象和音色克隆的实时语音交互数字人，支持端到端语音方案和级联方案

VideoChat 是一个基于开源技术的实时语音交互数字人项目，支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。该项目允许用户自定义数字人的形象与音色，并支持音色克隆及唇形同步，支持视频流输出，首包延迟低至3秒。用户可以通过在线demo体验其功能，或通过详细的技术文档进行本地部署和使用。

TalkingAvatar：创建和编辑AI虚拟形象视频平台，基于本地算力Windows客户端

TalkingAvatar 是一个领先的AI虚拟形象平台，提供完整AI数字人解决方案。提供用户创建、编辑和个性化视频内容的革命性方式。通过先进的AI技术，用户可以轻松重写视频、克隆语音、同步唇形，并创建自定义视频。无论是重新配音现有视频还是从头开始创建新故事，TalkingAvatar 都能满足您的需求。

SadTalker：让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

SadTalker是一个开源工具，能够将单张静态人像照片和音频文件结合，创造出逼真的说话头像视频，适用于个性化信息、教育内容等多种场景。革命性地使用3D建模技术，如ExpNet和PoseVAE，优秀地捕获细微的面部表情和头部动作。用户可以在个人项目和商业项目中使用SadTalker技术，例如信息传递、教学或市场营销。

AniPortrait : image ou mouvement vidéo piloté par l'audio pour générer des vidéos numériques réalistes de la parole humaine

AniPortrait est un cadre innovant permettant de générer des animations de portraits réalistes à partir de données audio. Développé par Huawei, Zechun Yang et Zhisheng Wang du Tencent Game Know Yourself Lab, AniPortrait est capable de générer des animations de haute qualité à partir de données audio et d'images de référence.Fournir une vidéo pour la reconstitution faciale. En utilisant des techniques avancées de représentation intermédiaire en 3D et d'animation faciale en 2D, le cadre est capable de générer des effets d'animation naturels et fluides pour une variété de scénarios d'application tels que la production cinématographique et télévisuelle, les présentateurs virtuels et les personnes numériques.

MuseV+Muse Talk：完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV是一个GitHub上的公共项目，旨在实现无限长度和高保真度的虚拟人视频生成。它基于扩散技术，并提供了Image2Video、Text2Image2Video、Video2Video等多种功能。提供了模型结构、使用案例、快速开始指南、推理脚本和致谢等详细信息。

DreamTalk : générez des vidéos parlantes expressives avec une seule image d'avatar !

DreamTalk是一个扩散模型驱动的表情说话头生成框架，由清华大学、阿里巴巴集团和华中科技大学联合开发。主要由降噪网络、风格感知嘴唇专家和风格预测器三部分构成，能够基于音频输入生成多样而真实的说话头像。该框架能处理多种语言和噪声音频，提供高质量的面部运动和准确的嘴型同步。

Translation Starter：开源视频内容翻译同步工具|语言转换|唇形同步

Translation Starter是一个由Sync Labs开发的开源项目，旨在帮助开发者快速集成视频内容的多语言支持。它提供必要的API和文档，以便开发者轻松创建需要视频翻译与唇动同步的应用程序。其基于强大的AI技术，如Sync Lab的完美唇形同步、Open AI的Whisper翻译技术及Eleven Labs的声音合成。