ViTLP: 일반적으로 복잡한 PDF 문서에서 구조화된 데이터를 추출하고 텍스트 레이아웃을 위한 사전 학습된 모델을 시각적으로 안내하여 생성합니다.

최신 AI 도구8개월 전 업데이트 Sharenet.ai
1.2K 0
吐司AI

일반 소개

시각적으로 유도된 생성 텍스트 레이아웃 사전 학습을 통해 문서 인텔리전스 처리를 향상시키는 것을 목표로 하는 오픈 소스 프로젝트인 ViTLP(시각적으로 유도된 생성 텍스트 레이아웃 사전 학습)가 있습니다. 이 프로젝트는 Veason-silverbullet 팀이 개발하여 NAACL 2024에서 발표했으며, OCR 텍스트를 현지화하고 인식할 수 있는 ViTLP 모델은 사전 학습된 ViTLP 중간(380M) 체크포인트를 제공하며, 허깅페이스에서 사용자가 액세스할 수 있습니다. 프로젝트의 코드와 모델 가중치는 GitHub에서 확인할 수 있으며 문서 이미지의 OCR 처리와 텍스트 레이아웃 생성을 지원합니다.

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型

 

기능 목록

  • OCR 텍스트 현지화 및 인식ViTLP 모델을 사용하면 효율적인 OCR 텍스트 현지화 및 인식이 가능합니다.
  • 사전 교육 모델사용자가 직접 사용하거나 미세 조정할 수 있는 ViTLP-중급(380M) 사전 훈련 체크포인트가 제공됩니다.
  • 문서 이미지 처리문서 이미지 업로드 및 OCR 처리 지원.
  • 모델링 미세 조정OCR 데이터 세트 및 VQA 데이터 세트에 대한 후속 학습을 지원하기 위한 미세 조정 도구를 제공합니다.
  • 문서 작성 도구위치 지정 상자 메타데이터가 포함된 문서 합성 도구를 제공합니다.

 

도움말 사용

설치 프로세스

  1. ViTLP 프로젝트의 코드를 복제합니다:
   git clone https://github.com/Veason-silverbullet/ViTLP
cd ViTLP
  1. 종속성을 설치합니다:
   pip install -r requirements.txt
  1. 사전 교육 체크포인트를 다운로드하세요:
   mkdir -p ckpts/ViTLP-medium
git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium

사용 프로세스

  1. OCR 텍스트 인식::
    • OCR 스크립트를 실행합니다:
     python ocr.py
    
    • 문서 이미지를 업로드하면 모델이 자동으로 OCR 처리를 수행하고 결과를 출력합니다.
  2. 모델링 미세 조정::
    • 상담./finetuning디렉토리에 있는 지침 파일을 다운로드하여 OCR 데이터 세트와 VQA 데이터 세트에 대한 후속 학습을 진행하세요.
    • 문서 합성 도구를 사용하여 포지셔닝 박스 메타데이터가 포함된 합성 문서를 생성하여 모델 학습을 강화하세요.
  3. 일괄 디코딩::
    • 일괄 디코딩 스크립트를 사용합니다: bash
      bash decode.sh
    • 스크립트는 문서 이미지를 일괄 처리하고 OCR 결과를 출력합니다.

세부 기능 작동

  • OCR 텍스트 현지화 및 인식문서 이미지를 업로드하면 모델이 자동으로 텍스트 영역을 감지 및 인식하여 텍스트 내용과 위치 정보를 출력합니다.
  • 모델링 미세 조정사용자는 제공된 미세 조정 도구를 사용하여 데이터 세트 요구 사항에 따라 모델을 추가로 학습시키고 특정 시나리오에서 인식 효과를 개선할 수 있습니다.
  • 문서 작성 도구: 합성 도구를 통해 포지셔닝 박스 메타데이터가 포함된 문서를 생성하여 모델이 학습 중에 텍스트 레이아웃과 구조를 더 잘 이해할 수 있도록 지원합니다.
© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...