코스모스: 세계 기본 모델, 물리적 세계의 AI 기본 모델을 구축하기 위한 플랫폼

최신 AI 도구게시됨 6 개월 전 Sharenet.ai
1.3K 0
吐司AI

일반 소개

NVIDIA Cosmos는 개발자를 위한 월드 베이스 모델 플랫폼으로, 물리 AI 개발자가 물리 AI 시스템을 더 빠르고 효율적으로 구축할 수 있도록 특별히 설계되었습니다. 이 플랫폼은 확산 및 자동 회귀 기반 월드 베이스 모델과 효율적인 비디오 처리를 위한 토큰라이저를 포함한 다양한 사전 훈련된 모델을 제공하며, 텍스트 단서 또는 비디오 입력을 기반으로 시각 시뮬레이션을 생성할 수 있는 텍스트2월드 및 비디오2월드 생성과 같은 기능을 지원합니다. 텍스트 단서 또는 비디오 입력을 기반으로 시각적 시뮬레이션을 생성합니다. 이 플랫폼은 모델 트레이닝 및 스크립트 미세 조정을 위한 Apache 2 라이선스와 사전 트레이닝된 모델을 위한 NVIDIA 오픈 모델 라이선스에 따라 오픈 소스로 공개됩니다. 이 플랫폼은 특히 물리적 장면을 이해하고 생성하는 데 최적화되어 있어 로봇 공학 및 자율 주행과 같은 분야에 강력한 기본 모델을 제공합니다.

NVIDIA Cosmos란?

NVIDIA Cosmos™는 자율주행차(AV) 및 로봇과 같은 물리적 AI 시스템의 개발을 가속화하도록 설계된 고급 토큰라이저, 가드 메커니즘, 가속화된 데이터 처리 및 관리 흐름을 포함하는 최첨단 생성형 월드 파운데이션 모델(WFM) 플랫폼입니다. 물리 인식 비디오 및 세계 상태 생성을 위한 사전 학습된 모델 제품군은 물리 AI 개발을 위해 특별히 구축되었습니다.

Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

온라인 체험: https://build.nvidia.com/explore/discover

 

기능 목록

  • 텍스트2월드 및 비디오2월드 생성을 지원하는 디퓨전 기반 월드 기본 모델 제공
  • 비디오2월드 세대를 지원하는 자동 회귀 기반 월드 베이스 모델 제공
  • 효율적인 비디오 토큰화, 연속 및 개별 토큰 비디오 변환 지원
  • 다양한 물리적 AI 시나리오에 적응하기 위해 사전 학습된 모델을 위한 사후 학습 스크립트
  • 비디오 데이터 세트 관리 프로세스 도구(출시 예정)
  • 커스텀 월드 베이스 모델 구축을 지원하는 완전한 교육 스크립트
  • 생성된 콘텐츠의 보안을 보장하는 보안 보호 시스템이 내장되어 있습니다.
  • 다양한 하드웨어 구성을 수용할 수 있도록 여러 모델 크기(4B/5B/12B/13B 매개변수)를 지원합니다.
  • 그래픽 메모리 부족 환경에서의 운영을 지원하는 유연한 모델 오프로딩 전략

 

도움말 사용

1. 환경 설정

먼저 Docker 환경을 설정해야 하며, 설치 가이드에 따라 필요한 환경을 구성하세요. 모든 명령은 Docker 내에서 실행해야 합니다.

2. 모델 다운로드

  1. '읽기' 권한이 있는 허깅 페이스 액세스 토큰을 생성합니다.
  2. 다음 명령을 사용하여 허깅 페이스에 로그인합니다:
huggingface-cli login
  1. 코스모스 모델 가중치를 다운로드합니다:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. 모델 유형 및 사용 시나리오

Cosmos는 크게 두 가지 유형의 모델을 제공합니다:

기본 모델

  • 모델 버전: 4B 및 12B 파라메트릭 스케일
  • 주요 기능: 이미지/비디오 입력에서 월드 아날로그 생성 지원
  • 적용 가능한 시나리오: 기존 시각적 콘텐츠를 기반으로 장면을 확장하고 예측해야 하는 경우

비디오2월드 모델

  • 모델 버전: 5B 및 13B 파라메트릭 스케일
  • 주요 기능: 텍스트와 이미지/비디오 입력을 동시에 사용하여 월드 시뮬레이션을 생성할 수 있도록 지원합니다.
  • 시나리오: 텍스트 설명을 기반으로 한 시각적 콘텐츠의 타겟팅 생성 및 수정이 필요한 경우

4. 생성 용량 및 성능 지표

  • 최대 33프레임의 비디오 시퀀스 생성 지원
  • 단일 이미지 또는 9프레임 동영상 입력 지원
  • 해상도 1024x640으로 고정
  • H100 GPU에서의 추론 시간:
    • 모델 4B: 약 62초
    • 모델 12B: 약 119초
    • 5B 비디오2월드 모델: 약 73초
    • 13B Video2World 모델: 약 150초

5. 메모리 최적화 전략

코스모스는 다양한 모델 오프로딩 전략을 통해 메모리 사용 공간을 줄이는 데 사용할 수 있는 다양한 메모리 최적화 옵션을 제공합니다:

  • 최적화 전략 없음: 4B 모델 31.3GB 필요, 12B 모델 47.5GB 필요
  • 완전히 최적화된 전략: 4B 모델의 경우 18.7GB, 12B 모델의 경우 27.4GB까지 감소합니다.
  • Video2World 모델도 유사한 최적화 옵션을 제공합니다.

6. 보안 기능

  • 비활성화할 수 없는 보안 보호 시스템 내장
  • 얼굴 콘텐츠 자동 감지 및 흐림 처리
  • 콘텐츠 보안 필터링은 생성된 결과가 보안 표준을 준수하도록 보장합니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...