Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM:LLM事前学習のための効率的なウェブクローリングツール

包括的な紹介 Crawl4LLMは清華大学とカーネギーメロン大学によって共同開発されたオープンソースプロジェクトであり、大規模モデル(LLM)の事前学習のためのウェブクローリングの効率最適化に焦点を当てている。高品質なウェブページデータをインテリジェントに選択することで、非効率なクロールを大幅に削減し、本来1...
3ヶ月前
05720
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: コード構造とコンテンツから自動的にMarkdownドキュメントを生成します。

一般的な紹介 CodeWeaverは、コード・ライブラリを単一の見やすいMarkdownドキュメントに編むために設計されたコマンドライン・ツールです。ディレクトリを再帰的にスキャンし、各ファイルの内容をコードブロックに埋め込むことで、プロジェクトのファイル階層を構造化した表現を生成します。このツールは...
3ヶ月前
05170
Kreuzberg:从任何文档中提取文本的开源工具

Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツール

一般的な紹介 Kreuzbergは、PDFファイルからのテキスト抽出を簡素化するためのライブラリで、シンプルで手間のかからないテキスト抽出ソリューションを提供するように設計されています。このライブラリは、特にRAG(Retrieval-Augmented Generatio...
3ヶ月前
06970
Instructor:简化大语言模型结构化输出工作流的Python库

講師:大規模言語モデルの構造化出力ワークフローを簡素化するPythonライブラリ

概要 Instructorは、大規模言語モデル(LLM)からの構造化出力を処理するために設計された人気のあるPythonライブラリです。Pydanticをベースに構築されており、データを管理するためのシンプルで透過的、かつユーザーフレンドリーなAPIを提供します。
4ヶ月前
07010
zChunk:基于Llama-70B的通用语义分块策略

zChunk: Llama-70Bに基づく一般的な意味的チャンキング戦略

包括的な紹介 zChunkは、ZeroEntropyによって開発された、一般的なセマンティック・チャンキングのソリューションを提供する新しいチャンキング戦略です。このストラテジーはLlama-70Bモデルに基づいており、チャンクの生成を促すことでドキュメントのチャンキングプロセスを最適化し、情報検索を高いレベルで維持することを保証します。
4ヶ月前
05800
Pulse:文档处理与数据提取的商业解决方案

パルス:文書処理とデータ抽出のためのビジネスソリューション

Pulseは、文書処理とデータ抽出に特化したインテリジェントなプラットフォームで、企業や開発者がさまざまな複雑な文書を効率的に解析・処理できるように設計されています。高度なコンピュータビジョンとマルチモーダル処理技術により、Pulse はテキスト、画像、表、その他多くのデータから正確にデータを抽出することができます。
4ヶ月前
06870
Rowfill:批量提取文档结构化信息并自动化分析

ロウフィル:文書からの構造化情報の一括抽出と自動分析

概要 Rowfillは、ナレッジワーカーのために設計されたオープンソースの文書処理プラットフォームです。高度な人工知能技術を使用して、複雑な文書、画像、PDFからデータを抽出、分析、処理します。Rowfillは、Large Language Model(LLM)とOpe...
4ヶ月前
06900
PPTX2MD:将PPTX文件转换为Markdown的专用工具

PPTX2MD: PPTXファイルをMarkdownに変換する特別なツール

概要 PPTX2MDは、PowerPointのPPTXファイルをMarkdown形式に変換するために設計されたオープンソースツールです。GitHubユーザーのssine氏によって開発されたこのツールは、見出し、リスト、テキストフォーマット(例:太字、斜体、色、スーパー...)を保持することをサポートしています。
4ヶ月前
08650
Repomix:打包代码库为一个文本文件以便大模型检索

Repomix:大規模モデル検索用にコードベースをテキストファイルにパッケージ化

概論 Repomix(以前はRepopackとして知られていた)は、コードベース全体を単一のAIフレンドリーなファイルにパッケージ化するために設計されたオープンソースツールです。このツールにより、開発者は自分のコードベースを大規模な言語モデル(ClaudeやChat...
4ヶ月前
01.2K0
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。

一般的な紹介 Yekは、リポジトリやディレクトリからテキストファイルを読み込んでチャンキングし、大規模言語モデル(LLM)で使用するためにシリアライズするRustベースの高速ツールです。このツールはデフォルトで .gitignore ルールを使って不要なファイルをスキップし、...
4ヶ月前
09710
UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

UnDatas.IO: さまざまな種類の非構造化データを正確に解析するAPIサービス(有料)

包括的な紹介 UnDatas.IOは、非構造化データの解析と処理に特化したプラットフォームです。高度な技術を駆使して、ドキュメントのレイアウトを自動的に認識し、表、画像、数式、テキストを分類して、データ処理プロセスを大幅に簡素化します。このプラットフォームは、データの並べ替えにかかる時間を大幅に節約するだけでなく...
4ヶ月前
08310
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF、DOCX、Markdownへの画像変換、ビジュアルモデル高精度OCR

一般的な紹介 Zeroxは、ビジュアルモデルを通してPDF、DOCX、画像やその他のドキュメントをMarkdown形式に変換するために設計されたオープンソースプロジェクトです。このプロジェクトはgetomni-aiチームによって開発され、シンプルで効率的なOCR(光学式文字認識)ソリューションを提供します。
4ヶ月前
01K0
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装

包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN(近似最近傍)類似検索を組み合わせています。
4ヶ月前
09410
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur: 文書データの自動抽出、様々な文書からの構造化テキスト抽出

概要 Parseurは、PDF、電子メール、その他のドキュメントからテキストデータを自動的に抽出するために設計された、業界をリードするAIデータ抽出ソフトウェアです。Parseurを使用すると、ユーザーは簡単に非構造化データを構造化データに変換し、様々なアプリケーションに送信することができます...
4ヶ月前
09240
AI Functions:将输入内容转换为结构化输出的(API)服务

AIファンクション:入力コンテンツを構造化された出力に変換する(API)サービス

包括的な紹介 Weco AI Functionsは、ユーザーが迅速にAIファンクションを構築し、展開できるように設計された強力なプラットフォームです。タスクを記述するだけで、ユーザーはA/Bテストや観察モニタリングで構造化された出力パターンを生成できます。このプラットフォームは、ノーコードのプロトタイピングをサポートします。
4ヶ月前
07800
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NVインジェスト:複雑なフォーマットのドキュメントを解析し、マルチモーダルデータをメタデータとテキストに抽出する。

包括的な紹介 NV Ingest (NVIDIA Ingest)は、何十万もの複雑で厄介な非構造化PDFやその他の企業ドキュメントを解析するために設計された、早期アクセス可能なマイクロサービス群です。これらのドキュメントをメタデータとテキストに変換し、検索に埋め込むことができます...
5ヶ月前
01K0
Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

Trellis: 構造化されていないドキュメントを構造化されたEXCEL形式のデータ、PDFに高速変換(有料)

概要 Trellisは、複雑な非構造化データソースを構造化されたSQL形式に変換することに特化したデータプラットフォームです。Trellisは、その強力なAIエンジンを通じて、財務文書、音声通話、電子メールなどの幅広いデータソースを処理し、使用可能なデータに変換することができます。
5ヶ月前
08080