TFT-ID-1.0オープンソース学術論文検出ツール - 表、グラフおよびテキスト領域を正確に検出

ホーム

TFT ID 1.0

yifeihuによって開発

TFT-IDは学術論文における表、図表およびテキスト領域を検出するために特別に調整された物体検出モデルで、Florence-2を基に微調整されています

画像生成テキスト

Transformers

オープンソースライセンス:MIT #学術論文解析 #表・図表検出 #テキスト領域認識

ダウンロード数 153

リリース時間 : 7/25/2024

モデル概要

このモデルは学術論文ページ内の表、図表およびテキスト領域を認識し、境界ボックス情報を出力します。テキスト領域はOCRプロセスに直接接続可能です

モデル特徴

高精度検出

表・図表認識タスクにおいて98.84%の成功率を達成

複数領域認識

表、図表およびテキスト領域を同時に検出

手動アノテーションデータ

トレーニングデータには36,000以上の手動で注釈付けされ検証されたバウンディングボックスが含まれます

OCR統合

テキスト領域はOCRプロセスに直接接続可能で、TB-OCR-preview-0.1モデルの使用が推奨されます

モデル能力

学術論文画像分析

表検出

図表検出

テキスト領域検出

境界ボックス出力

使用事例

学術研究

論文内容分析

論文内の表、図表およびテキスト領域を自動認識

研究者が論文内の重要な情報を迅速に特定・抽出するのに役立ちます

文献デジタル化

紙またはPDF論文を構造化されたデジタルコンテンツに変換

文献処理効率を向上させ、後の分析と検索を容易にします

出版業界

ジャーナルレイアウトチェック

論文内の図表と表の位置が出版要件に合致しているかを自動検出

手動チェック作業を削減し、出版効率を向上させます

🚀 TFT-ID: 学術論文用の表/図/テキスト識別器

TFT-ID（Table/Figure/Text IDentifier）は、学術論文内の表、図、およびテキストセクションを抽出するために微調整された物体検出モデルです。このモデルはYifei Huによって作成されました。

image/png

TFT-IDは、microsoft/Florence-2のチェックポイントから微調整されています。

このモデルは、Hugging Face Daily Papersの論文を使用して微調整されました。すべての36,000以上のバウンディングボックスは、Yifei Huによって手動で注釈付けされ、チェックされています。
TFT-IDモデルは、単一の論文ページの画像を入力として受け取り、指定されたページ内のすべての表、図、およびテキストセクションのバウンディングボックスを返します。
テキストセクションには、下流のOCRワークフローに最適なクリーンなテキストコンテンツが含まれています。テキストセクションをクリーンなマークダウンと数式のLaTeX出力に変換するためのOCRモデルとして、TB-OCR-preview-0.1 [HF]の使用をおすすめします。

物体検出結果の形式: {'': {'bboxes': [[x1, y1, x2, y2], ...], 'labels': ['label1', 'label2', ...]} }

🚀 クイックスタート

以下のコードを使用して、モデルを使用を開始できます。

CUDA非対応の環境では、この投稿を参照して簡単なパッチを適用してください: https://huggingface.co/microsoft/Florence-2-base/discussions/4

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM 

model = AutoModelForCausalLM.from_pretrained("yifeihu/TFT-ID-1.0", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("yifeihu/TFT-ID-1.0", trust_remote_code=True)

prompt = "<OD>"

url = "https://huggingface.co/yifeihu/TF-ID-base/resolve/main/arxiv_2305_10853_5.png?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")

generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]

parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))

print(parsed_answer)

結果を視覚化するには、このチュートリアルノートブックを参照してください。

✨ 主な機能

学術論文内の表、図、テキストセクションを高精度に識別します。
テキストセクションの内容を下流のOCRワークフローに適した形式で提供します。

📦 インストール

コードの実行に必要なライブラリは、コード内で指定されている通りにインストールできます。以下のように、transformersやrequests、Pillowなどのライブラリをインストールします。

pip install transformers requests pillow

💻 使用例

基本的な使用法

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModelForCausalLM 

model = AutoModelForCausalLM.from_pretrained("yifeihu/TFT-ID-1.0", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("yifeihu/TFT-ID-1.0", trust_remote_code=True)

prompt = "<OD>"

url = "https://huggingface.co/yifeihu/TF-ID-base/resolve/main/arxiv_2305_10853_5.png?download=true"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=prompt, images=image, return_tensors="pt")

generated_ids = model.generate(
    input_ids=inputs["input_ids"],
    pixel_values=inputs["pixel_values"],
    max_new_tokens=1024,
    do_sample=False,
    num_beams=3
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=False)[0]

parsed_answer = processor.post_process_generation(generated_text, task="<OD>", image_size=(image.width, image.height))

print(parsed_answer)

高度な使用法

結果の視覚化や、モデルの微調整などの高度な使用法については、このチュートリアルノートブックを参照してください。

📚 ドキュメント

訓練コードとデータセット

データセット: 近日公開予定。
コード: github.com/ai8hyf/TF-ID

ベンチマーク

このモデルは、訓練データセット外の論文ページでテストされました。使用された論文は、Hugging Face Daily Paperのサブセットです。

正しい出力 - モデルが指定されたページ内のすべての表/図/テキストセクションに正しいバウンディングボックスを描画し、内容を欠落させないことを意味します。

タスク1: 表、図、およびテキストセクションの識別

モデル	総画像数	正しい出力数	成功率
TFT-ID-1.0[HF]	373	361	96.78%

タスク2: 表と図の識別

モデル	総画像数	正しい出力数	成功率
TFT-ID-1.0[HF]	258	255	98.84%
TF-ID-large[HF]	258	253	98.06%

注: 使用ケースによっては、一部の「誤った」出力も完全に使用可能な場合があります。たとえば、モデルが2つの子コンポーネントを持つ1つの図に2つのバウンディングボックスを描画する場合です。

🔧 技術詳細

モデルはmicrosoft/Florence-2のチェックポイントから微調整されています。
訓練データはHugging Face Daily Papersの論文で、36,000以上のバウンディングボックスが手動で注釈付けされています。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

BibTexと引用情報

@misc{TF-ID,
  author = {Yifei Hu},
  title = {TF-ID: Table/Figure IDentifier for academic papers},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/ai8hyf/TF-ID}},
}