TF-ID:学术论文表格/图像识别工具

Derniers outils d'IAPosté il y a 9 mois Sharenet.ai
1.1K 0
Trae

Introduction générale

TF-ID(Table/Figure IDentifier)是一个专门用于从学术论文中提取表格和图像的对象检测模型家族。该项目由Yifei Hu创建,并在GitHub上开源。TF-ID模型经过微调,可以识别并提取学术论文中的表格和图像,支持带有或不带有标题文本的提取。该项目提供了完整的训练代码、模型权重和人工标注的数据集,所有内容均在MIT许可证下开源。

 

TF-ID:学术论文表格/图像识别工具

 

 

Liste des fonctions

  • 提取学术论文中的表格和图像
  • 支持带有或不带有标题文本的提取
  • 提供完整的训练代码和模型权重
  • 支持从PDF文件中提取表格和图像
  • 提供多种模型版本以适应不同需求

 

 

Utiliser l'aide

Processus d'installation

  1. Entrepôt de clonage :
    git clone https://github.com/ai8hyf/TF-ID
    cd TF-ID
    
  2. 下载数据集: 从Hugging Face下载数据集并解压到相应目录。
    wget https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers/resolve/main/arxiv_paper_images.zip
    unzip arxiv_paper_images.zip -d ./images
    
  3. 转换数据集格式:
    python coco_to_florence.py
    
  4. 训练模型:
    accelerate launch train.py
    

Processus d'utilisation

  1. 提取单个图像中的表格和图像:
    python inference.py --image_path path/to/image.png
    
  2. 从PDF文件中提取所有表格和图像:
    python pdf_to_table_figures.py --pdf_path path/to/paper.pdf --output_dir ./sample_output
    

Procédure d'utilisation détaillée

  1. 提取单个图像中的表格和图像: :
    • 将图像路径传递给inference.py脚本,该脚本将使用默认的TF-ID-large模型提取图像中的表格和图像。
    • 提取结果将以边界框的形式返回,标识出图像中的表格和图像位置。
  2. 从PDF文件中提取所有表格和图像: :
    • 将PDF文件路径传递给pdf_to_table_figures.py脚本,该脚本将提取PDF文件中的所有表格和图像,并将裁剪后的图像保存到指定的输出目录。
    • 默认使用TF-ID-large模型进行提取,可以通过修改脚本中的model_id参数切换到其他模型版本。
  3. 训练模型: :
    • 克隆仓库并下载数据集后,使用coco_to_florence.py脚本将数据集转换为Florence 2格式。
    • utiliseraccelerate launch train.py命令启动模型训练,训练过程中会保存检查点文件。
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...