Gaze-LLE: 비디오 속 인물 시선에 대한 타겟 예측 도구

최신 AI 도구3 개월 전 업데이트 Sharenet.ai
1.1K 0
吐司AI

일반 소개

Gaze-LLE는 대규모 학습 인코더를 기반으로 하는 시선 표적 예측 툴입니다. 피오나 라이언, 아제이 바티, 이상민, 다니엘 볼야, 주디 호프만, 제임스 레그가 개발한 이 프로젝트는 DINOv2와 같은 사전 훈련된 시각적 기반 모델을 통해 효율적인 시선 표적 예측을 가능하게 하는 것을 목표로 하며, Gaze-LLE의 아키텍처는 깔끔하고 단순하며, 사전 훈련된 경량 시선 디코더를 학습하기 때문에 이전 작업에 비해 파라미터의 양이 1~2배 정도 줄어들고 깊이 및 포즈 정보와 같은 추가 입력 양식이 필요하지 않습니다.

Gaze-LLE: 视频中人物注视目标预测工具

 

기능 목록

  • 목표 예측에 집중사전 학습된 비주얼 코더를 기반으로 시선 타겟을 효율적으로 예측합니다.
  • 다중 시선 예측: 단일 이미지에서 여러 사람의 시선 예측을 지원합니다.
  • 사전 교육 모델다양한 백본 네트워크와 학습 데이터를 지원하기 위해 사전 학습된 다양한 모델을 제공합니다.
  • 경량 아키텍처경량 시선 디코더 학습은 사전 훈련된 시각 코더만 학습합니다.
  • 추가 입력 모드 없음추가 깊이 및 자세 정보 입력이 필요하지 않습니다.

 

도움말 사용

설치 프로세스

  1. 복제 창고:
   git clone https://github.com/fkryan/gazelle.git
cd gazelle
  1. 가상 환경을 만들고 종속 요소를 설치합니다:
   conda env create -f environment.yml
conda activate gazelle
pip install -e .
  1. 선택 사항: 관심도 계산을 가속화하기 위해 x포머를 설치합니다(시스템에서 지원하는 경우):
   pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu118

사전 학습된 모델 사용

Gaze-LLE는 사용자가 필요에 따라 다운로드하여 사용할 수 있는 사전 학습된 다양한 모델을 제공합니다:

  • 가젤dinov2vitb14GazeFollow의 학습 데이터가 포함된 DINOv2 ViT-B 기반 모델입니다.
  • 가젤dinov2vitl14GazeFollow의 학습 데이터가 포함된 DINOv2 ViT-L 기반 모델입니다.
  • 가젤dinov2vitb14_inoutGazeFollow 및 VideoAttentionTarget에 대한 학습 데이터가 포함된 DINOv2 ViT-B 기반 모델입니다.
  • 가젤largevitl14_inout시선추적 및 비디오어텐션타겟에 대한 학습 데이터가 포함된 DINOv2 ViT-L 기반 모델입니다.

사용 예

  1. 파이토치 허브에서 모델을 로드합니다:
   import torch
model, transform = torch.hub.load('fkryan/gazelle', 'gazelle_dinov2_vitb14')
  1. 이미지에서 모든 사람의 시선 대상을 감지하는 방법을 알아보려면 Google Colab의 데모 노트북을 확인하세요.

예측 보기

Gaze-LLE는 여러 사람에 대한 시선 예측을 지원합니다. 즉, 하나의 이미지를 한 번 인코딩한 다음 특징을 사용하여 이미지에 있는 여러 사람의 시선 대상을 예측하는 방식입니다. 이 모델은 장면에서 시선 대상의 위치 확률을 나타내는 공간 히트 맵을 [0,1] 범위의 값으로 출력하며, 여기서 1은 시선 대상 위치의 확률이 가장 높음을 나타냅니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...