TF-ID-large-no-caption開源目標檢測模型 - 免費提取學術論文表格、圖片及標題文本

首頁

TF ID Large No Caption

由yifeihu開發

TF-ID是一系列目標檢測模型，專門用於提取學術論文中的表格和圖片及其標題文本。

圖像生成文本

Transformers

開源協議:MIT #學術圖表檢測 #高精度定位 #論文解析

下載量 1,944

發布時間 : 7/10/2024

模型概述

TF-ID模型經過微調，能夠高效識別學術文獻中的圖表信息，幫助科研人員快速處理論文內容。

模型特點

多版本選擇

提供四個版本模型，可選擇是否包含標題文本檢測功能

高準確率

在測試數據集上達到97%以上的識別準確率

學術專用

專門針對學術論文中的表格和圖片進行優化

模型能力

表格檢測

圖片檢測

標題文本識別

學術論文分析

使用案例

學術研究

論文圖表提取

從學術論文中自動提取所有表格和圖片

準確識別97%以上的圖表

文獻整理

批量處理多篇論文的圖表信息

提高文獻處理效率

🚀 TF-ID：學術論文表格/圖片識別器

TF-ID（Table/Figure IDentifier）是一系列目標檢測模型，由胡逸飛創建，經過微調後可用於提取學術論文中的表格和圖片。該模型具有顯著的實用價值，能夠幫助科研人員更高效地處理學術文獻中的圖表信息。

🚀 快速開始

使用以下代碼開始使用該模型：

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("yifeihu/TF-ID-base", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("yifeihu/TF-ID-base", trust_remote_code=True)

prompt = "<OD>"
url = "https://huggingface.co/yifeihu/TF-ID-base/resolve/main/arxiv_2305_10853_5.png?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")
generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)

generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))
print(parsed_answer)

若要可視化結果，請參考此教程筆記本獲取更多詳細信息。

✨ 主要特性

TF-ID模型有四個版本，可根據需求選擇提取包含或不包含標題文本的表格和圖片。
所有TF-ID模型均基於microsoft/Florence - 2的檢查點進行微調。
模型以單頁學術論文的圖像作為輸入，返回給定頁面中所有表格和圖片的邊界框。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("yifeihu/TF-ID-base", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("yifeihu/TF-ID-base", trust_remote_code=True)

prompt = "<OD>"
url = "https://huggingface.co/yifeihu/TF-ID-base/resolve/main/arxiv_2305_10853_5.png?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")
generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)

generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]
parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))
print(parsed_answer)

高級用法

文檔未提及高級用法代碼示例，暫不提供。

📚 詳細文檔

模型概述

TF-ID（Table/Figure IDentifier）是一系列目標檢測模型，有四個版本：

模型	模型大小	模型描述
TF-ID-base[HF]	0.23B	提取表格/圖片及其標題文本
TF-ID-large[HF]（推薦）	0.77B	提取表格/圖片及其標題文本
TF-ID-base-no-caption[HF]	0.23B	提取表格/圖片，不包含標題文本
TF-ID-large-no-caption[HF]（推薦）	0.77B	提取表格/圖片，不包含標題文本

所有TF-ID模型均基於microsoft/Florence - 2的檢查點進行微調。

模型使用來自Hugging Face Daily Papers的論文進行微調，所有邊界框均經過人工手動標註和檢查。
TF-ID模型以單頁學術論文的圖像作為輸入，返回給定頁面中所有表格和圖片的邊界框。
TF-ID-base和TF-ID-large會在表格/圖片及其標題文本週圍繪製邊界框。
TF-ID-base-no-caption和TF-ID-large-no-caption會在表格/圖片周圍繪製邊界框，但不包含標題文本。

強烈推薦使用大模型！

image/png

目標檢測結果格式： {'': {'bboxes': [[x1, y1, x2, y2], ...], 'labels': ['label1', 'label2', ...]} }

訓練代碼和數據集

數據集：yifeihu/TF-ID-arxiv-papers
代碼：github.com/ai8hyf/TF-ID

基準測試

我們在訓練數據集之外的論文頁面上測試了模型。這些論文是Hugging Face每日論文的一個子集。

正確輸出 - 模型為給定頁面中的每個表格/圖片繪製正確的邊界框。

模型	總圖像數	正確輸出數	成功率
TF-ID-base[HF]	258	251	97.29%
TF-ID-large[HF]	258	253	98.06%

模型	總圖像數	正確輸出數	成功率
TF-ID-base-no-caption[HF]	261	253	96.93%
TF-ID-large-no-caption[HF]	261	254	97.32%

根據不同的使用場景，一些“不正確”的輸出可能仍然完全可用。例如，模型為一個包含兩個子組件的圖片繪製了兩個邊界框。

🔧 技術細節

文檔未提及具體技術實現細節，暫不提供。

📄 許可證

本項目採用MIT許可證，詳情請見許可證鏈接。

📖 BibTex和引用信息

@misc{TF-ID,
  author = {Yifei Hu},
  title = {TF-ID: Table/Figure IDentifier for academic papers},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/ai8hyf/TF-ID}},
}