코스모스: 세계 기본 모델, 물리적 세계의 AI 기본 모델을 구축하기 위한 플랫폼

1.3K 0

일반 소개

NVIDIA Cosmos는 개발자를 위한 월드 베이스 모델 플랫폼으로, 물리 AI 개발자가 물리 AI 시스템을 더 빠르고 효율적으로 구축할 수 있도록 특별히 설계되었습니다. 이 플랫폼은 확산 및 자동 회귀 기반 월드 베이스 모델과 효율적인 비디오 처리를 위한 토큰라이저를 포함한 다양한 사전 훈련된 모델을 제공하며, 텍스트 단서 또는 비디오 입력을 기반으로 시각 시뮬레이션을 생성할 수 있는 텍스트2월드 및 비디오2월드 생성과 같은 기능을 지원합니다. 텍스트 단서 또는 비디오 입력을 기반으로 시각적 시뮬레이션을 생성합니다. 이 플랫폼은 모델 트레이닝 및 스크립트 미세 조정을 위한 Apache 2 라이선스와 사전 트레이닝된 모델을 위한 NVIDIA 오픈 모델 라이선스에 따라 오픈 소스로 공개됩니다. 이 플랫폼은 특히 물리적 장면을 이해하고 생성하는 데 최적화되어 있어 로봇 공학 및 자율 주행과 같은 분야에 강력한 기본 모델을 제공합니다.

NVIDIA Cosmos란?
NVIDIA Cosmos™는 자율주행차(AV) 및 로봇과 같은 물리적 AI 시스템의 개발을 가속화하도록 설계된 고급 토큰라이저, 가드 메커니즘, 가속화된 데이터 처리 및 관리 흐름을 포함하는 최첨단 생성형 월드 파운데이션 모델(WFM) 플랫폼입니다. 물리 인식 비디오 및 세계 상태 생성을 위한 사전 학습된 모델 제품군은 물리 AI 개발을 위해 특별히 구축되었습니다.

온라인 체험: https://build.nvidia.com/explore/discover

기능 목록

텍스트2월드 및 비디오2월드 생성을 지원하는 디퓨전 기반 월드 기본 모델 제공
비디오2월드 세대를 지원하는 자동 회귀 기반 월드 베이스 모델 제공
효율적인 비디오 토큰화, 연속 및 개별 토큰 비디오 변환 지원
다양한 물리적 AI 시나리오에 적응하기 위해 사전 학습된 모델을 위한 사후 학습 스크립트
비디오 데이터 세트 관리 프로세스 도구(출시 예정)
커스텀 월드 베이스 모델 구축을 지원하는 완전한 교육 스크립트
생성된 콘텐츠의 보안을 보장하는 보안 보호 시스템이 내장되어 있습니다.
다양한 하드웨어 구성을 수용할 수 있도록 여러 모델 크기(4B/5B/12B/13B 매개변수)를 지원합니다.
그래픽 메모리 부족 환경에서의 운영을 지원하는 유연한 모델 오프로딩 전략

도움말 사용

1. 환경 설정

먼저 Docker 환경을 설정해야 하며, 설치 가이드에 따라 필요한 환경을 구성하세요. 모든 명령은 Docker 내에서 실행해야 합니다.

2. 모델 다운로드

'읽기' 권한이 있는 허깅 페이스 액세스 토큰을 생성합니다.
다음 명령을 사용하여 허깅 페이스에 로그인합니다:

huggingface-cli login

코스모스 모델 가중치를 다운로드합니다:

PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. 모델 유형 및 사용 시나리오

Cosmos는 크게 두 가지 유형의 모델을 제공합니다:

기본 모델

모델 버전: 4B 및 12B 파라메트릭 스케일
주요 기능: 이미지/비디오 입력에서 월드 아날로그 생성 지원
적용 가능한 시나리오: 기존 시각적 콘텐츠를 기반으로 장면을 확장하고 예측해야 하는 경우

비디오2월드 모델

모델 버전: 5B 및 13B 파라메트릭 스케일
주요 기능: 텍스트와 이미지/비디오 입력을 동시에 사용하여 월드 시뮬레이션을 생성할 수 있도록 지원합니다.
시나리오: 텍스트 설명을 기반으로 한 시각적 콘텐츠의 타겟팅 생성 및 수정이 필요한 경우

4. 생성 용량 및 성능 지표

최대 33프레임의 비디오 시퀀스 생성 지원
단일 이미지 또는 9프레임 동영상 입력 지원
해상도 1024x640으로 고정
H100 GPU에서의 추론 시간:
- 모델 4B: 약 62초
- 모델 12B: 약 119초
- 5B 비디오2월드 모델: 약 73초
- 13B Video2World 모델: 약 150초