ViTLP: 일반적으로 복잡한 PDF 문서에서 구조화된 데이터를 추출하고 텍스트 레이아웃을 위한 사전 학습된 모델을 시각적으로 안내하여 생성합니다.
일반 소개
시각적으로 유도된 생성 텍스트 레이아웃 사전 학습을 통해 문서 인텔리전스 처리를 향상시키는 것을 목표로 하는 오픈 소스 프로젝트인 ViTLP(시각적으로 유도된 생성 텍스트 레이아웃 사전 학습)가 있습니다. 이 프로젝트는 Veason-silverbullet 팀이 개발하여 NAACL 2024에서 발표했으며, OCR 텍스트를 현지화하고 인식할 수 있는 ViTLP 모델은 사전 학습된 ViTLP 중간(380M) 체크포인트를 제공하며, 허깅페이스에서 사용자가 액세스할 수 있습니다. 프로젝트의 코드와 모델 가중치는 GitHub에서 확인할 수 있으며 문서 이미지의 OCR 처리와 텍스트 레이아웃 생성을 지원합니다.

기능 목록
- OCR 텍스트 현지화 및 인식ViTLP 모델을 사용하면 효율적인 OCR 텍스트 현지화 및 인식이 가능합니다.
- 사전 교육 모델사용자가 직접 사용하거나 미세 조정할 수 있는 ViTLP-중급(380M) 사전 훈련 체크포인트가 제공됩니다.
- 문서 이미지 처리문서 이미지 업로드 및 OCR 처리 지원.
- 모델링 미세 조정OCR 데이터 세트 및 VQA 데이터 세트에 대한 후속 학습을 지원하기 위한 미세 조정 도구를 제공합니다.
- 문서 작성 도구위치 지정 상자 메타데이터가 포함된 문서 합성 도구를 제공합니다.
도움말 사용
설치 프로세스
- ViTLP 프로젝트의 코드를 복제합니다:
git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
- 종속성을 설치합니다:
pip install -r requirements.txt
- 사전 교육 체크포인트를 다운로드하세요:
mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium
사용 프로세스
- OCR 텍스트 인식::
- OCR 스크립트를 실행합니다:
python ocr.py
- 문서 이미지를 업로드하면 모델이 자동으로 OCR 처리를 수행하고 결과를 출력합니다.
- 모델링 미세 조정::
- 상담
./finetuning
디렉토리에 있는 지침 파일을 다운로드하여 OCR 데이터 세트와 VQA 데이터 세트에 대한 후속 학습을 진행하세요. - 문서 합성 도구를 사용하여 포지셔닝 박스 메타데이터가 포함된 합성 문서를 생성하여 모델 학습을 강화하세요.
- 상담
- 일괄 디코딩::
- 일괄 디코딩 스크립트를 사용합니다:
bash
bash decode.sh - 스크립트는 문서 이미지를 일괄 처리하고 OCR 결과를 출력합니다.
- 일괄 디코딩 스크립트를 사용합니다:
세부 기능 작동
- OCR 텍스트 현지화 및 인식문서 이미지를 업로드하면 모델이 자동으로 텍스트 영역을 감지 및 인식하여 텍스트 내용과 위치 정보를 출력합니다.
- 모델링 미세 조정사용자는 제공된 미세 조정 도구를 사용하여 데이터 세트 요구 사항에 따라 모델을 추가로 학습시키고 특정 시나리오에서 인식 효과를 개선할 수 있습니다.
- 문서 작성 도구: 합성 도구를 통해 포지셔닝 박스 메타데이터가 포함된 문서를 생성하여 모델이 학습 중에 텍스트 레이아웃과 구조를 더 잘 이해할 수 있도록 지원합니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...