TF-ID-large開源模型 - 免費部署，高效提取學術論文表格和圖表

首頁

TF ID Large

由yifeihu開發

TF-ID是專門用於提取學術論文中表格和圖表的視覺目標檢測模型，基於Florence-2微調而成

目標檢測

Transformers

開源協議:MIT #學術論文解析 #圖表檢測 #高精度OCR

下載量 9,893

發布時間 : 7/10/2024

模型概述

該模型能夠識別學術論文中的表格和圖表，並返回其邊界框位置。基礎版會同時識別表格/圖表及其標題文本

模型特點

高精度表格/圖表檢測

在測試集上達到97.29%的成功率，能準確識別學術論文中的表格和圖表

標題文本聯合檢測

基礎版能同時檢測表格/圖表及其對應的標題文本

多版本選擇

提供基礎版/大型版以及帶標題/不帶標題的多種模型變體

模型能力

學術論文圖像分析

表格檢測

圖表檢測

文本區域檢測

目標檢測

使用案例

學術研究

論文內容分析

自動提取論文中的表格和圖表信息，便於文獻綜述和研究分析

可準確識別97%以上的表格和圖表

學術知識圖譜構建

作為預處理工具，幫助構建包含論文可視化元素的學術知識庫

出版行業

學術期刊排版

自動檢測論文中的可視化元素，輔助期刊排版工作

🚀 TF-ID：學術論文的表格/圖標識符

TF-ID（Table/Figure IDentifier）是一系列目標檢測模型，由胡逸飛創建，用於提取學術論文中的表格和圖。該模型具有強大的識別能力，能精準定位論文中的表格和圖，為學術研究和文獻處理提供了高效的解決方案。

🚀 快速開始

使用以下代碼開始使用該模型：

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("yifeihu/TF-ID-base", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("yifeihu/TF-ID-base", trust_remote_code=True)

prompt = "<OD>"
url = "https://huggingface.co/yifeihu/TF-ID-base/resolve/main/arxiv_2305_10853_5.png?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")
generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)

generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))

print(parsed_answer)

要可視化結果，請參閱本教程筆記本以獲取更多詳細信息。

✨ 主要特性

TF-ID（Table/Figure IDentifier）是一系列經過微調的目標檢測模型，用於提取學術論文中的表格和圖。
有四個版本可供選擇，能滿足不同需求：
- TF-ID-base[HF]：0.23B，可提取表格/圖及其標題文本。
- TF-ID-large[HF]（推薦）：0.77B，可提取表格/圖及其標題文本。
- TF-ID-base-no-caption[HF]：0.23B，可提取表格/圖，不包含標題文本。
- TF-ID-large-no-caption[HF]（推薦）：0.77B，可提取表格/圖，不包含標題文本。
所有TF-ID模型均從microsoft/Florence - 2的檢查點進行微調。
模型使用來自Hugging Face Daily Papers的論文進行微調，所有邊界框均經過人工手動標註和檢查。
以單頁學術論文的圖像作為輸入，返回給定頁面中所有表格和圖的邊界框。
TF-ID-base和TF-ID-large會在表格/圖及其標題文本週圍繪製邊界框。
TF-ID-base-no-caption和TF-ID-large-no-caption會在表格/圖周圍繪製邊界框，但不包含標題文本。

📚 詳細文檔

模型概述

TF-ID（Table/Figure IDentifier）是由胡逸飛創建的一系列目標檢測模型，用於提取學術論文中的表格和圖。它有四個版本，具體信息如下：

模型	模型大小	模型描述
TF-ID-base[HF]	0.23B	提取表格/圖及其標題文本
TF-ID-large[HF]（推薦）	0.77B	提取表格/圖及其標題文本
TF-ID-base-no-caption[HF]	0.23B	提取表格/圖，不包含標題文本
TF-ID-large-no-caption[HF]（推薦）	0.77B	提取表格/圖，不包含標題文本

所有TF-ID模型均從microsoft/Florence - 2的檢查點進行微調。

訓練相關

數據集：yifeihu/TF-ID-arxiv-papers
代碼：github.com/ai8hyf/TF-ID

基準測試

在訓練數據集之外的論文頁面上對模型進行了測試，這些論文是Hugging Face每日論文的一個子集。正確輸出定義為模型為給定頁面中的每個表格/圖繪製正確的邊界框。

含標題文本模型

模型	總圖像數	正確輸出數	成功率
TF-ID-base[HF]	258	251	97.29%
TF-ID-large[HF]	258	253	98.06%

不含標題文本模型

模型	總圖像數	正確輸出數	成功率
TF-ID-base-no-caption[HF]	261	253	96.93%
TF-ID-large-no-caption[HF]	261	254	97.32%

根據不同的用例，一些“不正確”的輸出可能仍然完全可用。例如，模型為一個包含兩個子組件的圖繪製了兩個邊界框。

目標檢測結果格式

{'<OD>': {'bboxes': [[x1, y1, x2, y2], ...], 'labels': ['label1', 'label2', ...]} }

BibTex和引用信息

@misc{TF-ID,
  author = {Yifei Hu},
  title = {TF-ID: Table/Figure IDentifier for academic papers},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/ai8hyf/TF-ID}},
}