Llama OCR: 무료 Llama 3.2 Vision 인터페이스를 사용하여 이미지를 3줄의 코드로 마크다운으로 변환하는 OCR 라이브러리입니다.
일반 소개
Llama OCR은 문서를 마크다운 형식으로 변환하는 Llama 3.2 Vision 기반의 OCR(광학 문자 인식) 라이브러리입니다. 이 라이브러리는 Nutlope에서 개발했으며 함께 AI가 제공하는 무료 Llama 3.2 인터페이스는 이미지를 구문 분석하고 마크다운 텍스트를 반환합니다. Llama OCR은 로컬 및 원격 이미지의 OCR을 지원하며, 향후 PDF 파일의 OCR도 지원할 예정입니다. npm은 라이브러리를 설치하고 프로젝트에서 해당 기능을 쉽게 호출할 수 있게 해줍니다.
참조 항목: Zerox

데모: https://llamaocr.com/

함께 제공하는 Meta Llama Vision의 무료 인터페이스(https://api.together.ai/models/meta-llama/Llama-Vision-Free)를 활용하세요.
더 많은 무료 시각적 모델:스마트 스펙트럼 오픈 플랫폼, 최초의 무료 멀티모달 비전 모델 GLM-4V-Flash 온라인, 무제한 사용!
기능 목록
- 이미지 OCR로컬 및 원격 이미지의 광학 문자 인식을 지원합니다.
- 마크다운 출력인식된 텍스트를 마크다운 형식으로 변환합니다.
- 다중 모델 지원다양한 성능 요구 사항을 충족하기 위해 무료 및 유료 Llama 3.2 모델 인터페이스를 사용할 수 있습니다.
- API 통합Together AI의 API를 통한 이미지 파싱.
- 향후 기능이 프로그램은 단일 및 다중 페이지 PDF의 OCR 처리와 JSON 형식 출력을 지원합니다.
도움말 사용
설치 프로세스
- Node.js 환경이 설치되어 있는지 확인합니다.
- npm을 사용하여 Llama OCR 라이브러리를 설치합니다:
npm i llama-ocr
사용법
- 라마 OCR 라이브러리를 가져옵니다:
import { ocr } from "llama-ocr";
- 호출
ocr
함수를 사용하여 이미지 파싱을 수행합니다:
const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});
- 반환된 마크다운 텍스트를 처리합니다:
console.log(markdown);
세부 기능 작동
- 이미지 OCR: 이미지 파일 경로를
ocr
함수를 사용하면 이미지의 텍스트 콘텐츠를 가져올 수 있습니다. - 마크다운 출력파싱된 텍스트는 문서에서 쉽게 사용할 수 있도록 자동으로 마크다운 형식으로 변환됩니다.
- 다중 모델 지원설정하여
model
매개 변수를 사용하여 다른 Llama 3.2 모델을 선택할 수 있습니다(예Llama-3.2-90B-Vision
어쩌면Llama-3.2-11B-Vision
)를 사용하여 다양한 성능 요구 사항을 충족할 수 있습니다. - API 통합이미지 구문 분석을 위해 인터페이스를 호출하려면 Together AI의 API 키를 환경 변수에 설정해야 합니다.
샘플 코드(컴퓨팅)
import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();
향후 기능
- PDF 지원향후 버전에서는 단일 및 다중 페이지 PDF 파일의 OCR을 지원할 예정입니다.
- JSON 출력마크다운 형식 외에도 손쉬운 데이터 처리 및 통합을 위해 JSON 출력이 지원됩니다.
위의 단계를 통해 사용자는 Llama OCR 라이브러리를 쉽게 설치하고 사용하여 이미지의 텍스트 콘텐츠를 마크다운 형식으로 변환하여 문서 처리 효율성을 높일 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...