llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelagem de linguagem ampla (LLM). A ferramenta foi desenvolvida pela Mendable AI usando o @firec...
7 meses atrás
01.4K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: ferramentas de reconhecimento e conversão de fórmulas de imagens de documentos, suporte para conversão em vários formatos e tradução de alta precisão

Introdução abrangente O Doc2X é uma poderosa ferramenta de conversão e reconhecimento de fórmulas de imagens de documentos, comprometida em fornecer soluções eficientes e inteligentes de processamento de documentos. Quer se trate de um trabalho de pesquisa acadêmica, um livro didático, um documento corporativo ou um relatório financeiro, o Doc2X pode identificar com precisão tabelas e...
6 meses atrás
01.4K
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: Building an Efficient HTML Retrieval Enhanced Generation System, Otimizando a recuperação e o processamento de documentos HTML em sistemas RAG

Introdução abrangente O HtmlRAG é um projeto inovador de código aberto voltado para o aprimoramento do processamento de documentos HTML em sistemas RAG (Retrieval Augmented Generation). O projeto apresenta uma nova abordagem que argumenta que o uso da formatação HTML em sistemas RAG é mais eficiente do que o texto simples. O projeto contém uma versão completa ...
7 meses atrás
01.1K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: Uma palavra pronta para rastreamento da Web, sem necessidade de escrever regras Ferramenta inteligente de extração de conteúdo da Web

综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库,它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...
6 meses atrás
01.2K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft, converte vários arquivos para o formato Markdown

Introdução geral O MarkItDown é uma ferramenta Python desenvolvida pela Microsoft e projetada para converter vários arquivos e documentos de escritório no formato Markdown. A ferramenta é compatível com uma ampla variedade de tipos de arquivos, incluindo PDF, PowerPoint, Word, Excel, diagramas...
7 meses atrás
01.9K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.

综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...
8 meses atrás
01.8K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: uma plataforma de código aberto, sem código, que rastreia automaticamente os dados da Web e os converte em APIs ou planilhas

综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...
7 meses atrás
01.4K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: extrai quaisquer dados não estruturados de documentos/multimídia e os analisa em dados estruturados

综合介绍 OmniParse是一个强大的数据解析与优化平台,旨在将任何非结构化数据转换为结构化、可操作的数据,优化后适用于GenAI(生成式人工智能)框架。无论是处理文档、表格、图像、视频、音频文件还...
8 meses atrás
01.4K