나만의 디지털 인재는? 6가지 오픈 소스 디지털 페르소나 솔루션의 궁극적인 PK: 결과를 한 눈에 비교해보세요!

861 0

최근 AI 서클에서 디지털 휴먼 기술은 정말 혼란스럽고 다양한 "오픈 소스 가장 강력한"디지털 휴먼 프로그램이 끝없이 눈부신 것입니다. 저자는 또한 여러 디지털 휴먼 통합 패키지를 공유했지만 너무 많은 선택에 직면하여 사람들이 혼란스러워하고 어떤 것이 가장 적합한 지 모를 수밖에 없습니다.

이전에 독자를 위해 소개한 적이 있습니다:현지에 배치된 12명의 무료 디지털 인력소위 "선택하기 어려운"은 현대인의 공통된 문제이기 때문에 모든 사람의 고민을 해결하기 위해 이번에는 6 명의 디지털 사람들 중 인벤토리에 숨을 쉬십시오!

저자는 디지털 인재와 관련된 이전에 공유 된 리소스의 포괄적 인 인벤토리를 수행하여 자세히 비교합니다. 구현 효과, 구성 요구 사항, 생성 시간 및 기타 주요 정보를 제공하여 모든 사람이 한눈에 보기 오픈 소스 디지털 휴먼 기술의 최신 기술을 이해하여 자신에게 가장 적합한 '디지털 휴먼'을 선택할 수 있습니다.

디지털 인재: AI 분야의 '핫 칙'

현재 AI 분야에서 가장 핫한 기술을 꼽으라면 단연 디지털 피플을 꼽을 수 있습니다.

AI 페인팅 게시자 사용 안정성 AI 잦은 폐업 소식과 국내외 대형 모델 업체들이 가격 전쟁에 휘말리는 '혁명' 상황과 달리, 디지털 피플은 AI 분야에서 실질적인 비즈니스 가치와 수익 잠재력을 보여주었습니다.

일례로 올해 4월 중순 징동 창업자 류챵둥의 디지털 인물 '카이신동거'가 징동 생방송에서 공개됐는데, 말의 속도와 억양이 실제 인물과 매우 유사할 뿐만 아니라 습관적인 움직임까지 거의 똑같을 정도로 사실감이 놀라웠습니다.

'동가오'는 연설 중 가끔씩 손가락을 비비고, 요점을 강조할 때는 더 큰 제스처를 취하며 자연스럽게 고개를 끄덕입니다. 많은 구경꾼들은 그가 디지털 사람이라는 것을 거의 알 수 없다고 말했습니다!

이 디지털 휴먼 라이브 쇼의 데뷔는 한 시간도 채 안되어 시청자 수가 2 천만 명을 돌파했으며 전체 라이브의 누적 매출액은 다음과 같습니다. 5,000만 인민폐(RMB)

데뷔 쇼의 큰 성공에 힘입어 징동은 올해 618 프로모션 기간 동안 '디지털맨 사장 라이브' 활동을 시작했습니다. 그리, 하이센스, LG, 밍촹유핀, 젤리아, 코버스, 비보, 삼성 등 많은 유명 기업 경영진이 디지털맨으로 변신해 직접 상품과 함께 생방송을 진행했습니다.

징동 공식 데이터에 따르면 지금까지 징동 스피치 코뿔소 디지털 피플은 총 상품 거래액(GMV)을 기준으로 5000개 이상의 브랜드에 서비스를 누적했습니다. 100억 달러 이상 RMB.

디지털 피플이 보여주는 거대한 비즈니스 잠재력은 점점 더 많은 사람들의 관심을 끌고 있습니다. '둥가오'와 같은 초현실적인 디지털 사람을 구현하는 데 드는 비용은 여전히 높지 않지만, AI 기술의 급속한 발전으로 오픈 소스 커뮤니티에는 점점 더 많은 다기능의 강력한 디지털 사람 프로젝트가 등장하여 기술 문턱이 크게 낮아졌습니다.

다음으로, 우수한 오픈 소스 디지털 인재 프로젝트에 대한 자세한 목록을 알려드리겠습니다.

최고의 오픈소스 디지털 휴먼 기술은 무엇일까요? 6개 프로젝트에 대한 엄밀한 평가

공상과학 영화 속에서만 존재하던 디지털 휴먼 기술이 점차 현실로 다가오고 있습니다. 인공지능 기술이 빠르게 발전함에 따라 주요 연구 기관과 기술 기업들이 자체 오픈소스 솔루션을 출시하는 등 오픈소스 디지털 휴먼 분야도 경쟁이 치열해지고 있습니다.

다음에서는 대표적인 오픈소스 디지털 피플 프로젝트 6가지와 기술 개발 순서 디지털 휴먼 기술의 진화에 대한 직관적인 이해를 돕기 위한 소개가 제공됩니다.

1. 웨이브투립: 1세대 디지털 휴먼 기술의 대표주자

Wav2Lip 알고리즘은 딥러닝 기반의 음성 기반 얼굴 애니메이션 생성 알고리즘으로, 초기 디지털 휴먼 기술에서 더 널리 사용되는 방식입니다. 핵심 아이디어는 음성 신호의 정보를 얼굴 애니메이션 파라미터에 매핑하여 음성과 동기화된 얼굴 애니메이션을 생성하는 것입니다.

사례 생성다음 그림은 Wav2Lip 생성된 디지털 휴먼 효과. 이미지 속 캐릭터의 얼굴 움직임이 뻣뻣하고 주로 입술의 기계적 움직임에 집중되어 있으며 디지털 사람의 전체적인 완성도가 상대적으로 낮다는 것을 알 수 있습니다.

구성 요구 사항Wav2Lip은 하드웨어 요구 사항이 낮아 4GB RAM이 장착된 GPU만 있으면 실행할 수 있습니다. 1분 분량의 디지털 휴먼 비디오를 생성하는 데 약 5~15분의 처리 시간이 소요됩니다.

2. 새드토커: 보다 자연스러운 얼굴 움직임을 위한 고급 프로그램

새드토커 는 시안교통대학교의 오픈 소스 프로젝트로, 오디오에서 학습하여 3D 동작 계수를 생성하고 이를 새로운 3D 얼굴 렌더러와 결합하여 머리 움직임을 생성함으로써 사진 한 장과 오디오만으로 고품질의 디지털 휴먼 비디오를 생성하는 효과를 얻을 수 있습니다.

사례 생성다음 그림은 새드토커 디지털 휴먼 효과 생성. 새드토커는 웨이브2립에 비해 머리가 더 이상 완전히 고정되어 있지 않고 약간의 움직임이 추가되어 얼굴 움직임의 자연스러움이 향상되었습니다. 그러나 자세히 살펴보면 그림의 가장자리에 여전히 약간의 정렬 불량이 있음을 알 수 있습니다. 바로 이 부분입니다. 인물 동영상을 사용하여 디지털 피플을 생성할 수 있도록 개선된 새드토커

구성 요구 사항: 새드토커가 향상된 디지털 피플을 생성함에 따라 하드웨어 요구 사항도 그에 따라 증가했습니다. 원활한 작동을 위해 6GB RAM이 장착된 GPU를 사용하는 것이 좋습니다. 램이 6GB 미만인 GPU나 CPU를 사용할 경우 생성 속도가 느려집니다. 약 1분 분량의 디지털 휴먼 동영상을 생성하는 데 약 10~20분 정도의 처리 시간이 소요됩니다.

3. MuseTalk: Tencent의 립싱크가 더 정확해졌습니다.

MuseTalk 뮤즈톡은 텐센트에서 시작한 디지털 휴먼 프로젝트로, 실시간 오디오 기반 입술 동기화 디지털 휴먼 생성에 중점을 두고 있으며, 뮤즈톡의 핵심 기술은 오디오 신호에 따라 디지털 캐릭터의 얼굴 이미지를 자동으로 조정하여 입술 모양이 오디오 콘텐츠와 매우 일치하도록 함으로써 보다 자연스러운 입술 동기화 효과를 얻을 수 있는 것입니다.

사례 생성아래 그림은 MuseTalk로 생성된 디지털 인물의 효과를 보여줍니다. 보시다시피 MuseTalk는 새드토커보다 머리와 얼굴의 움직임이 더 자연스러워지고 가장자리의 어긋남이 완화되었습니다. 하지만 입술 애니메이션의 섬세함에는 여전히 개선의 여지가 있습니다.

구성 요구 사항뮤즈톡의 하드웨어 요구 사항은 새드토커와 유사하며, 더 나은 실행 환경을 위해 6GB의 비디오 메모리가 있는 GPU를 권장합니다. 디지털 인물의 1분 분량의 동영상을 생성하는 데 약 10~20분이 소요됩니다.

4. 안녕하세요: 바이두 & 푸단 & ETH 취리히 & 난징 대학교 공동 제작, 그 효과는 놀랍습니다!

안녕하세요 바이두가 푸단대학교, 취리히공과대학교, 난징대학교와 공동으로 개발한 디지털 휴먼 프로젝트인 Hallo는 오디오 기반 인물 애니메이션 생성 분야에서 상당한 진전을 이루었으며, 첨단 AI 기술을 활용하여 음성 입력을 기반으로 사실적이고 역동적인 인물 동영상을 생성합니다. 이 기술은 음성 입력을 심층적으로 분석하여 입술, 표정, 머리 포즈를 포함한 얼굴 움직임을 동기화하여 인상적인 디지털 휴먼 효과를 구현합니다.

사례 생성다음 그림은 안녕하세요 생성된 디지털 휴먼의 효과. Hallo로 생성된 인물은 선명도, 풍부한 머리 움직임, 미묘한 표정 표현 측면에서 이전 솔루션보다 비약적으로 발전했습니다.

구성 요구 사항Hallo: Hallo는 뛰어난 효과를 제공하지만 높은 수준의 하드웨어 성능이 필요합니다. 제 리뷰에 따르면 원활하게 실행하려면 10GB 이상의 비디오 메모리가 있는 GPU를 사용하는 것이 좋습니다. 디지털 인물의 1분짜리 동영상을 생성하는 데 30~40분 정도의 처리 시간이 소요됩니다.

5.LivePortrait: 레이서 오픈 소스, 다중 문자 심리스 스티칭

라이브 초상화 는 레이서가 오픈소스로 공개한 디지털 인물 프로젝트로 눈길을 끌고 있습니다. 캐릭터의 시선 방향과 입술의 열림과 닫힘을 정확하게 제어할 수 있을 뿐만 아니라 여러 사람의 초상화를 매끄럽게 이어 붙일 수 있다는 점이 이 프로젝트의 특징입니다.

사례 생성다음 그림은 라이브 초상화 생성된 디지털 인물 효과. 보시다시피 LivePortrait는 갑작스러운 테두리나 연결 표시 없이 캐릭터 간에 매우 부드럽고 자연스러운 전환을 통해 여러 사람이 등장하는 장면을 처리합니다.

구성 요구 사항LivePortrait는 Hallo에 비해 하드웨어 요구 사항이 더 낮으면서도 우수한 생성 결과를 보장합니다. 제가 평가한 바에 따르면 8GB RAM이 장착된 GPU는 원활하게 실행할 수 있고, 6GB RAM이 장착된 GPU는 간신히 실행할 수 있습니다. 1분 분량의 디지털 휴먼 비디오를 생성하는 데는 약 10~20분이 소요됩니다.

6. 에코 모방 : 오디오 및 비디오 듀얼 드라이브, 더 사실적이고 자연스러운

기존의 디지털 휴먼 기술은 오디오 기반 또는 얼굴 키포인트 기반에 의존하며, 각각 장단점이 있습니다. 반면 에코미믹 대신 이 두 가지 구동 방식을 영리하게 결합하여 오디오와 얼굴 키포인트의 이중 학습을 통해 더욱 사실적이고 자연스러운 동적 인물 생성을 달성합니다.
你的专属数字人？六大开源数字人方案终极PK：效果对比一目了然！

사례 생성다음 그림은 에코미믹으로 생성된 디지털 휴먼의 효과를 보여줍니다. 그림에서 볼 수 있듯이 EchoMimic으로 생성된 디지털 휴먼의 표정과 신체 움직임은 매우 자연스럽고 부드러워서 진짜와 가짜를 구분하기 어려울 정도입니다.

구성 요구 사항에코미믹의 생성 결과는 하드웨어 요구 사항을 크게 늘리지 않고도 크게 향상되었으며, 8GB RAM이 장착된 GPU가 원활하게 실행됩니다. 그러나 생성 시간이 약간 증가하여 디지털 인물의 1분짜리 동영상을 생성하는 데 약 15~30분 정도의 처리 시간이 소요됩니다.

요약 및 전망

디지털 휴먼 기술의 발전 속도는 놀라울 정도로 빨라 사람들의 상상의 한계를 끊임없이 뛰어넘고 있습니다. 다양한 오픈소스 디지털 휴먼 기술의 발전 효과를 보다 직관적으로 보여주기 위해 필자는 기술 발전 비교 차트를 만들었습니다:

AI 기술이 계속 발전함에 따라 앞으로 점점 더 강력한 오픈 소스 AI 디지털 휴먼 프로젝트가 등장할 것으로 예상됩니다. 디지털 휴먼 기술에 대해 궁금하고 디지털 휴먼의 놀라운 효과를 경험하고 싶다면 지금이 가장 좋은 시기입니다. 디지털 휴먼 기술의 눈부신 발전과 무한한 가능성을 함께 목격해 보세요!