Dolphin - 字节跳动开源的轻量级文档解析大模型

吐司AI

Dolphin是什么

Dolphin 是字节跳动开源的轻量级文档解析大模型,具有322M参数,体积小且运行速度快。模型基于两阶段解析方法,基于页面级布局分析识别文档中的元素(如标题、表格、公式等),再对每个元素进行内容解析,模型支持文本、公式、表格等多种元素的提取,支持输出JSON、Markdown、HTML等格式。Dolphin 适用学术研究、商业办公、教育、技术开发等多种场景,能高效处理学术论文、商业报告、技术文档等,助力文档数字化与信息提取,提升办公效率。

Dolphin - 字节跳动开源的轻量级文档解析大模型

Dolphin的主要功能

  • レイアウト分析:精准识别文档中的标题、图表、表格、脚注等各类元素,依据自然阅读顺序,生成清晰的元素序列,为后续内容解析奠定基础。
  • 内容抽出:将文档页面解析为结构化的JSON或Markdown格式,便于后续处理与展示。
  • 文本解析:准确提取文档中的文本内容,涵盖中文、英文等多种语言。
  • 数式認識:支持复杂行内公式和块级公式的识别,输出为LaTeX格式,方便学术和技术文档处理。
  • 表格解析:支持解析复杂表格结构,提取单元格内容生成HTML格式表格,满足多种应用场景需求。
  • 軽量アーキテクチャ:模型参数量为322M,体积小、速度快,适合在资源受限的设备或环境中使用。
  • 多样化输入输出:支持学术论文、商业报告、技术文档等多种文档图像输入,解析结果支持输出为JSON、Markdown、HTML等多种格式,便于与不同系统集成。

Dolphin的官网地址

如何使用Dolphin

  • 在线体验Demo:访问Dolphin在线体验Demo地址,用户直接上传文档图像进行解析,无需安装或配置任何环境。
  • GitHub仓库部署::
    • クローン倉庫::
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin
    • 依存関係のインストール::
pip install -r requirements.txt
    • 訓練済みモデルのダウンロード:根据GitHub仓库中的说明,下载、解压预训练模型文件。
    • 実行コード:按照仓库中的示例代码运行Dolphin。例如:
from dolphin import DolphinParser

parser = DolphinParser(model_path="path/to/model")
result = parser.parse(image_path="path/to/document.jpg")
print(result)
  • Hugging Face模型库::
    • 安装 Hugging Face 库::
pip install transformers
    • 積載モデル::
from transformers import AutoModelForDocumentParsing, AutoFeatureExtractor

model_name = "ByteDance/Dolphin"
model = AutoModelForDocumentParsing.from_pretrained(model_name)
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)

# 加载文档图像并进行预处理
image = feature_extractor(images="path/to/document.jpg", return_tensors="pt")

# 进行解析
outputs = model(**image)
# 处理输出结果
    • 处理输出结果:根据模型的输出格式(如JSON、HTML等),进一步处理和使用解析结果。

Dolphin的核心优势

  • 轻量级与高效性:Dolphin 参数量仅322M,体积小、速度快,适合资源受限环境。
  • 两阶段解析方法:先解析布局再解析内容,基于并行处理提升效率和准确性。
  • 强大的文档解析能力:支持文本、表格、公式、图表等多种元素解析,覆盖复杂文档结构。
  • 多言語サポート:准确识别中文、英文等多语言文本,满足多语言文档处理需求。
  • 多样化的输入与输出:兼容多种文档格式输入,支持JSON、Markdown、HTML等格式输出,便于集成。
  • 开源与易用性:代码和预训练模型开源,提供丰富资源,方便开发者快速上手和定制开发。
  • 高性能:在文档解析任务中超越GPT-4.1、Mistral-OCR等主流模型,在表格和公式识别方面表现出色。

Dolphin的适用人群

  • 研究人员:快速解析学术论文中的文本、公式和图表,帮助研究人员高效整理文献和提取关键信息,加速科研工作。
  • 企业办公人员:商务人士提取合同、报告等商业文档的关键信息,辅助合同审查和报告生成,提升办公效率。
  • 教育者:教师和教育机构借助 Dolphin 将教材、试卷数字化,支持在线教学和多语言教学,丰富教学资源。
  • 技术开发者:开发者解析技术文档,方便代码管理和技术交流,同时基于开源代码进行二次开发和定制化。
  • 学童:学生快速整理学习资料,提取重点内容,辅助学习和复习。
© 著作権表示
AiPPT

関連記事

コメントなし

なし
コメントはありません