HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG : Building an Efficient HTML Retrieval Enhanced Generation System, Optimising HTML Document Retrieval and Processing in RAG Systems (en anglais)

综合介绍 HtmlRAG是一个创新的开源项目,专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法,认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...
Il y a 7 mois
01.1K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse : analyse chaque type de document en données disponibles en LLM, en préservant toutes les informations du document, telles que les tableaux et les images, dans leur intégralité.

综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...
Il y a 8 mois
01.8K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun : une plateforme open source, sans code, qui explore automatiquement les données web et les convertit en API ou en feuilles de calcul.

综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...
Il y a 7 mois
01.4K