Llama OCR: 무료 Llama 3.2 Vision 인터페이스를 사용하여 이미지를 3줄의 코드로 마크다운으로 변환하는 OCR 라이브러리입니다.

1.5K 0

일반 소개

Llama OCR은 문서를 마크다운 형식으로 변환하는 Llama 3.2 Vision 기반의 OCR(광학 문자 인식) 라이브러리입니다. 이 라이브러리는 Nutlope에서 개발했으며 함께 AI가 제공하는 무료 Llama 3.2 인터페이스는 이미지를 구문 분석하고 마크다운 텍스트를 반환합니다. Llama OCR은 로컬 및 원격 이미지의 OCR을 지원하며, 향후 PDF 파일의 OCR도 지원할 예정입니다. npm은 라이브러리를 설치하고 프로젝트에서 해당 기능을 쉽게 호출할 수 있게 해줍니다.

참조 항목: Zerox

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

데모: https://llamaocr.com/

함께 제공하는 Meta Llama Vision의 무료 인터페이스(https://api.together.ai/models/meta-llama/Llama-Vision-Free)를 활용하세요.

더 많은 무료 시각적 모델:스마트 스펙트럼 오픈 플랫폼, 최초의 무료 멀티모달 비전 모델 GLM-4V-Flash 온라인, 무제한 사용!

기능 목록

이미지 OCR로컬 및 원격 이미지의 광학 문자 인식을 지원합니다.
마크다운 출력인식된 텍스트를 마크다운 형식으로 변환합니다.
다중 모델 지원다양한 성능 요구 사항을 충족하기 위해 무료 및 유료 Llama 3.2 모델 인터페이스를 사용할 수 있습니다.
API 통합Together AI의 API를 통한 이미지 파싱.
향후 기능이 프로그램은 단일 및 다중 페이지 PDF의 OCR 처리와 JSON 형식 출력을 지원합니다.

도움말 사용

설치 프로세스

Node.js 환경이 설치되어 있는지 확인합니다.
npm을 사용하여 Llama OCR 라이브러리를 설치합니다:

   npm i llama-ocr

사용법

라마 OCR 라이브러리를 가져옵니다:

   import { ocr } from "llama-ocr";

호출 ocr 함수를 사용하여 이미지 파싱을 수행합니다:

   const markdown = await ocr({
filePath: "./trader-joes-receipt.jpg", // 图像文件路径
apiKey: process.env.TOGETHER_API_KEY, // Together AI API 密钥
});

반환된 마크다운 텍스트를 처리합니다:

   console.log(markdown);

세부 기능 작동

이미지 OCR: 이미지 파일 경로를 ocr 함수를 사용하면 이미지의 텍스트 콘텐츠를 가져올 수 있습니다.
마크다운 출력파싱된 텍스트는 문서에서 쉽게 사용할 수 있도록 자동으로 마크다운 형식으로 변환됩니다.
다중 모델 지원설정하여 model 매개 변수를 사용하여 다른 Llama 3.2 모델을 선택할 수 있습니다(예 Llama-3.2-90B-Vision 어쩌면 Llama-3.2-11B-Vision)를 사용하여 다양한 성능 요구 사항을 충족할 수 있습니다.
API 통합이미지 구문 분석을 위해 인터페이스를 호출하려면 Together AI의 API 키를 환경 변수에 설정해야 합니다.

샘플 코드(컴퓨팅)

import { ocr } from "llama-ocr";
async function runOCR() {
const markdown = await ocr({
filePath: "./example-image.jpg",
apiKey: "your-together-ai-api-key",
});
console.log(markdown);
}
runOCR();