TF-ID：学术论文表格/图像识别工具

Derniers outils d'IAPosté il y a 11 mois Sharenet.ai

1.3K 0

Introduction générale

TF-ID（Table/Figure IDentifier）是一个专门用于从学术论文中提取表格和图像的对象检测模型家族。该项目由Yifei Hu创建，并在GitHub上开源。TF-ID模型经过微调，可以识别并提取学术论文中的表格和图像，支持带有或不带有标题文本的提取。该项目提供了完整的训练代码、模型权重和人工标注的数据集，所有内容均在MIT许可证下开源。

Liste des fonctions

提取学术论文中的表格和图像
支持带有或不带有标题文本的提取
提供完整的训练代码和模型权重
支持从PDF文件中提取表格和图像
提供多种模型版本以适应不同需求

Utiliser l'aide

Processus d'installation

Entrepôt de clonage :

git clone https://github.com/ai8hyf/TF-ID
cd TF-ID

下载数据集：从Hugging Face下载数据集并解压到相应目录。

wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
unzip arxiv_paper_images.zip -d ./images

转换数据集格式：
```
python coco_to_florence.py
```
训练模型：
```
accelerate launch train.py
```

Processus d'utilisation

提取单个图像中的表格和图像：

python inference.py --image_path path/to/image.png

从PDF文件中提取所有表格和图像：

python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output

Procédure d'utilisation détaillée

提取单个图像中的表格和图像: :
- 将图像路径传递给inference.py脚本，该脚本将使用默认的TF-ID-large模型提取图像中的表格和图像。
- 提取结果将以边界框的形式返回，标识出图像中的表格和图像位置。
从PDF文件中提取所有表格和图像: :
- 将PDF文件路径传递给pdf_to_table_figures.py脚本，该脚本将提取PDF文件中的所有表格和图像，并将裁剪后的图像保存到指定的输出目录。
- 默认使用TF-ID-large模型进行提取，可以通过修改脚本中的model_id参数切换到其他模型版本。
Modèles de formation: :
- 克隆仓库并下载数据集后，使用coco_to_florence.py脚本将数据集转换为Florence 2格式。
- utiliseraccelerate launch train.py命令启动模型训练，训练过程中会保存检查点文件。