MiniRAG: 간소화된 검색 강화 생성 프레임워크, 엔티티 그래프 인덱스 관련 텍스트 블록 리콜

최신 AI 도구6개월 전 업데이트 Sharenet.ai
1.3K 0
吐司AI

일반 소개

MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 달성하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프로젝트는 기존 RAG 프레임워크에서 소규모 언어 모델(SLM)이 직면한 성능 저하 문제를 해결하는 데 중점을 두고 있습니다. miniRAG는 텍스트 청크와 명명된 엔터티를 하나의 통합된 구조로 결합하여 복잡한 의미 이해에 대한 의존도를 줄이고 효율적인 지식 검색을 위해 그래프 구조를 활용합니다. 이 프레임워크는 대규모 언어 모델(LLM) 접근 방식의 251 TP3T의 저장 공간만으로 비슷한 성능을 달성합니다.

MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

 

기능 목록

  • 이기종 그래프 인덱싱 메커니즘: 텍스트 블록과 명명된 엔티티를 결합하여 복잡한 의미 이해에 대한 의존도를 줄입니다.
  • 경량 토폴로지 강화 검색: 그래프 구조를 사용해 효율적으로 지식을 검색합니다.
  • 소규모 언어 모델과 호환: 리소스가 제한된 시나리오에서 효율적인 RAG 성능을 제공합니다.
  • 포괄적인 벤치마크 데이터 세트: 복잡한 쿼리에서 경량 RAG 시스템의 성능을 평가하기 위해 LiHua-World 데이터 세트가 제공됩니다.
  • 간편한 설치: 소스 코드 및 PyPI를 통한 설치를 지원합니다.

 

도움말 사용

설치 프로세스

소스에서 설치(권장)

  1. MiniRAG 리포지토리 복제하기:
   git clone https://github.com/HKUDS/MiniRAG.git
cd MiniRAG
  1. 종속성을 설치합니다:
   pip install -e .

PyPI에서 설치

미니랙은 라이트랙을 기반으로 하므로 직접 설치할 수 있습니다:

pip install lightrag-hku

빠른 시작

  1. 필요한 데이터 세트를 다운로드하여 다음 위치에 놓습니다../dataset카탈로그로 이동합니다. 예를 들어, LiHua-World 데이터 세트는./dataset/LiHua-World/data/카탈로그.
  2. 다음 명령을 사용하여 데이터 집합을 색인합니다:
   python ./reproduce/Step_0_index.py
  1. Q&A 모듈을 실행합니다:
   python ./reproduce/Step_1_QA.py
  1. 또는./main.py의 코드는 미니랙을 초기화합니다.

주요 기능

이기종 그래프 인덱싱 메커니즘

MiniRAG는 텍스트 블록과 명명된 엔티티를 통합된 구조로 결합하여 이기종 그래프 인덱스를 생성합니다. 사용자는 아래 단계에 따라 이를 수행할 수 있습니다:

  1. 데이터 집합을 준비하고 필요에 따라 데이터 집합의 형식이 지정되었는지 확인합니다.
  2. 인덱싱 스크립트를 실행합니다:
   python ./reproduce/Step_0_index.py
  1. 인덱싱이 완료되면 데이터는 나중에 검색할 수 있도록 지정된 디렉터리에 저장됩니다.

경량 토폴로지 향상된 검색

미니래그는 효율적인 지식 검색을 위해 그래프 구조를 활용하며, 사용자는 다음 단계에 따라 이를 검색할 수 있습니다:

  1. 미니랙을 초기화합니다:
   from minirag import MiniRAG
model = MiniRAG()
  1. 데이터 집합을 로드하고 검색합니다:
   results = model.retrieve("你的查询")
  1. 검색 결과를 처리하고 응답을 생성합니다:
   response = model.generate(results)

위의 단계를 통해 사용자는 효율적인 검색 향상 생성을 위해 MiniRAG의 기능을 최대한 활용할 수 있습니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...