CHARGEMENT

Sharenet
  • Tutoriels pratiques sur l'IA
  • Commandes d'utilitaires AI
  • Informations sur le cours
  • Base de connaissances sur l'IA
  • Réponses AI
  • Je veux contribuer
    • Principales recommandations en matière d'IA
    • Derniers outils d'IA
    • Rédaction d'articles sur l'IA
    • Génération d'images par l'IA
    • Outils vidéo sur l'IA
    • Efficacité de l'IA dans les bureaux
    • Outils de programmation de l'IA
    • Outils de conception d'IA
    • Assistant de chat AI
    • AI Intelligence

    文档提取与清洗

    共 67 篇文章
    mettre en ordre
    postemise à jourécrémerfélicitations
    par_scrape:智能提取网页数据的爬虫工具

    par_scrape:智能提取网页数据的爬虫工具

    综合介绍 par_scrape 是一个基于 Python 的开源网页爬虫工具,由开发者 Paul Robello 在 GitHub 上推出,旨在帮助用户从网页中智能提取数据。它整合了 Selenium...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 3 mois
    05910
    PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

    PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

    综合介绍 PDF-Extract-Kit 是一个由 OpenDataLab 团队开发的开源项目,专注于从复杂多样的 PDF 文档中高效提取高质量内容。它集成了先进的文档解析技术,支持布局检测、公式识别...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 3 mois
    07620
    Crawl4LLM:为LLM预训练提供的高效网页爬取工具

    Crawl4LLM:为LLM预训练提供的高效网页爬取工具

    综合介绍 Crawl4LLM 是一个由清华大学和卡内基梅隆大学联合开发的开源项目,专注于优化大模型(LLM)预训练的网页爬取效率。它通过智能选择高质量网页数据,显著减少无效爬取,号称能将原本需要爬取1...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 3 mois
    05860
    CodeWeaver:将代码结构和内容自动生成Markdown文档

    CodeWeaver:将代码结构和内容自动生成Markdown文档

    综合介绍 CodeWeaver 是一个命令行工具,旨在将代码库编织成单个、易于浏览的Markdown文档。它通过递归扫描目录,生成项目文件层次结构的结构化表示,并在代码块中嵌入每个文件的内容。这款工具...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    05310
    Kreuzberg:从任何文档中提取文本的开源工具

    Kreuzberg:从任何文档中提取文本的开源工具

    综合介绍 Kreuzberg是一个用于简化PDF文件文本提取的库,旨在提供简单、无忧的文本提取解决方案。该库特别适合需要进行文本提取的RAG(Retrieval-Augmented Generatio...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    07160
    Instructor:简化大语言模型结构化输出工作流的Python库

    Instructor:简化大语言模型结构化输出工作流的Python库

    综合介绍 Instructor 是一个流行的 Python 库,专为处理大语言模型(LLMs)的结构化输出而设计。它基于 Pydantic 构建,提供了一个简单、透明且用户友好的 API,用于管理数据...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    07130
    AI Functions:将输入内容转换为结构化输出的(API)服务

    AI Functions:将输入内容转换为结构化输出的(API)服务

    综合介绍 Weco AI Functions 是一个强大的平台,旨在帮助用户快速构建和部署AI功能。通过简单的描述任务,用户可以生成结构化的输出模式,并进行A/B测试和观察性监控。该平台支持无代码原型...
    Derniers outils d'IA# AI Open Services# Extraction et nettoyage de documents
    Il y a 4 mois
    07910
    Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

    Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

    综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库,旨在通过结构化文本生成来提升大语言模型(LLM)的应用能力。该库支持多种模型集成,包括 OpenAI、transformers...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    01.1K0
    zChunk:基于Llama-70B的通用语义分块策略

    zChunk:基于Llama-70B的通用语义分块策略

    综合介绍 zChunk是由ZeroEntropy开发的一种新型分块策略,旨在为通用语义分块提供解决方案。该策略基于Llama-70B模型,通过提示生成分块,优化了文档的分块过程,确保在信息检索时保持高...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    05950
    Chonkie:轻量级RAG文本切块库

    Chonkie:轻量级RAG文本切块库

    综合介绍 Chonkie 是一个轻量级且高效的 RAG(Retrieval-Augmented Generation)文本切块库,旨在帮助开发者快速、简便地对文本进行分块处理。该库支持多种分块方法,包...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    01.3K0
    Pulse:文档处理与数据提取的商业解决方案

    Pulse:文档处理与数据提取的商业解决方案

    综合介绍 Pulse 是一个专注于文档处理和数据提取的智能平台,旨在帮助企业和开发者高效地解析和处理各种复杂文档。通过其先进的计算机视觉和多模态处理技术,Pulse 能够准确地从文本、图像、表格等多种...
    Derniers outils d'IA# Extraction et nettoyage de documents
    Il y a 4 mois
    07010
    Rowfill:批量提取文档结构化信息并自动化分析

    Rowfill : Extraction par lots d'informations structurées à partir de documents et analyse automatisée

    综合介绍 Rowfill 是一个开源的文档处理平台,专为知识工作者设计。它利用先进的人工智能技术,从复杂的文档、图像和PDF中提取、分析和处理数据。Rowfill 支持本地大语言模型(LLM)和Ope...
    Derniers outils d'IA# AI Java Open Source Projecct# Analyse des données de l'IA# Extraction et nettoyage de documents
    Il y a 4 mois
    07040
    PPTX2MD:将PPTX文件转换为Markdown的专用工具

    PPTX2MD:将PPTX文件转换为Markdown的专用工具

    综合介绍 PPTX2MD是一个开源工具,旨在将PowerPoint的PPTX文件转换为Markdown格式。该工具由GitHub用户ssine开发,支持保留标题、列表、文本格式(如粗体、斜体、颜色和超...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    08820
    Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

    Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

    综合介绍 Doc2X 是一款功能强大的文档图片公式识别与转换工具,致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报,Doc2X 都能精准识别 PDF 中的表格和...
    Derniers outils d'IA# AI Open Services# AI Traduction# Extraction et nettoyage de documents
    Il y a 4 mois
    09690
    Repomix:打包代码库为一个文本文件以便大模型检索

    Repomix:打包代码库为一个文本文件以便大模型检索

    综合介绍 Repomix(前称Repopack)是一款开源工具,专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型(如Claude、Chat...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    01.2K0
    Yek:读取git仓库文本文件并快速分块,以供大模型使用

    Yek:读取git仓库文本文件并快速分块,以供大模型使用

    综合介绍 Yek 是一个基于 Rust 的快速工具,用于读取存储库或目录中的文本文件,将其分块并序列化以供大型语言模型(LLM)使用。该工具默认使用 .gitignore 规则跳过不需要的文件,并利用...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    09790
    LlamaParse:Llamaindex推出的高品质解析文档,提取数据服务(每日免费提取1000页)

    LlamaParse:Llamaindex推出的高品质解析文档,提取数据服务(每日免费提取1000页)

    综合介绍 LlamaParse 是一个强大的文档解析工具,能够处理复杂的文档如 PDF、PowerPoint、Word 文档和电子表格,并将其转换为结构化数据。LlamaParse 提供多种使用方式...
    Derniers outils d'IA# AI Open Services# Extraction et nettoyage de documents
    Il y a 4 mois
    09880
    UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

    UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

    综合介绍 UnDatas.IO 是一个专注于解析和处理非结构化数据的平台。它利用先进的技术,自动识别文档布局,分类表格、图像、公式和文本,极大地简化了数据处理流程。该平台不仅能够节省大量的数据整理时间...
    Derniers outils d'IA# AI Open Services# Extraction et nettoyage de documents
    Il y a 4 mois
    08490
    Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

    Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

    综合介绍 Zerox是一个开源项目,旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发,提供了简单高效的OCR(光学字符识别)解决方案。Ze...
    Derniers outils d'IA# AI Java Open Source Projecct# Extraction et nettoyage de documents
    Il y a 4 mois
    01K0
    En savoir plus
    Sharenet
    Sharenet.ai, le meilleur et le plus complet des guides et outils de navigation pour l'apprentissage de l'IA. Ensemble, embrassons la vague de l'IA ! Ctrl + D ou ⌘ + D Ajoutez ce site à la barre de signets de votre navigateur ❤️

    Demande de lien amicaldéclaration niant ou limitant la responsabilitéCoopération en matière de publicitéÀ propos de nous

    Copyright © 2025 Sharenet 
    fr_FRFrançais
    fr_FRFrançaiszh_CN简体中文 en_USEnglish ja日本語 ko_KR한국어 es_ESEspañol de_DEDeutsch pt_BRPortuguês do Brasil
    écrits
    écritsadresse webmatériellivre