pix2struct - base - table2htmlオープンソースモデル - 表画像をHTMLコードに1クリックで無料変換

ホーム

Pix2struct Base Table2html

KennethTMによって開発

Pix2Structベースの表画像からHTMLへの変換モデルで、表画像を構造化されたHTMLコードに変換できます

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #表画像からHTMLへの変換 #OCR構造化認識 #多言語表処理

ダウンロード数 104

リリース時間 : 9/10/2024

モデル概要

このモデルは表画像を受け取り、対応するHTMLコードを出力し、表画像のOCRと構造化認識機能を実現します。画像から表データを抽出する必要がある場面に適しています。

モデル特徴

表画像認識

表画像中の文字と構造を正確に認識できます

HTML生成

認識結果を構造化されたHTMLコードに変換します

複数データセットでの学習

MMTabとPubTabNetの2つのデータセットを使用して学習し、汎化能力を向上させています

1024チャンク長

最大1024のチャンク長をサポートし、複雑な表の処理に適しています

モデル能力

表画像認識

HTMLコード生成

表構造解析

多言語表処理

使用事例

文書デジタル化

PDF表抽出

PDF文書から表を抽出しHTML形式に変換します

編集可能なHTML表コードを生成します

データ収集

ウェブ表スクレイピング

ウェブスクリーンショット中の表を構造化データに変換します

直接使用可能な表データを取得します

🚀 pix2struct-base-table2html

表の画像をHTMLに変換します！

🚀 クイックスタート

このモデルは表の画像を入力として受け取り、HTMLを出力します。モデルは画像を解析し、光学文字認識（OCR）と構造認識を行い、HTML形式に変換します。

✨ 主な機能

表の画像をHTMLに変換することができます。
モデルはPix2Struct base modelをベースに、max_patch_lengthを1024、max generation lengthを1024でファインチューニングされています。

📦 インストール

このライブラリはtransformersを使用しています。必要に応じてインストールしてください。

pip install transformers

💻 使用例

基本的な使用法

以下は、モデルをロードし、表の画像の例に対して推論を行う完全な例です（MMTabデータセットの例）。

import torch
from transformers import AutoProcessor, Pix2StructForConditionalGeneration
from PIL import Image
import requests
from io import BytesIO

# モデルとプロセッサをロード
device = "cuda" if torch.cuda.is_available() else "cpu"
processor = AutoProcessor.from_pretrained("KennethTM/pix2struct-base-table2html")
model = Pix2StructForConditionalGeneration.from_pretrained("KennethTM/pix2struct-base-table2html")
model.to(device)
model.eval()

# URLからサンプル画像をロード
url = "https://huggingface.co/KennethTM/pix2struct-base-table2html/resolve/main/example_recog_1.jpg"
response = requests.get(url)
image = Image.open(BytesIO(response.content))

# モデルの推論を実行
encoding = processor(image, return_tensors="pt", max_patches=1024)
with torch.inference_mode():
    flattened_patches = encoding.pop("flattened_patches").to(device)
    attention_mask = encoding.pop("attention_mask").to(device)
    predictions = model.generate(flattened_patches=flattened_patches, attention_mask=attention_mask, max_new_tokens=1024)

predictions_decoded = processor.tokenizer.batch_decode(predictions, skip_special_tokens=True)

# 予測結果をテキストとして表示
print(predictions_decoded[0])

高度な使用法

このモデルのmax_patch_lengthは推論時に変更しない方が良いですが、generation lengthは変更することができます。以下のようにmax_new_tokensを変更することができます。

# 推論時にmax_new_tokensを変更する例
predictions = model.generate(flattened_patches=flattened_patches, attention_mask=attention_mask, max_new_tokens=2048)

サンプル画像

サンプル画像に対するモデルのHTML出力

<table border="1" cellspacing="0">
 <tr>
  <th>
   Rank
  </th>
  <th>
   Lane
  </th>
  <th>
   Name
  </th>
  <th>
   Nationality
  </th>
  <th>
   Time
  </th>
  <th>
   Notes
  </th>
 </tr>
 <tr>
  <td>
  </td>
  <td>
   4
  </td>
  <td>
   Michael Phelps
  </td>
  <td>
   United States
  </td>
  <td>
   51.25
  </td>
  <td>
   OR
  </td>
 </tr>
 <tr>
  <td>
  </td>
  <td>
   3
  </td>
  <td>
   Ian Crocker
  </td>
  <td>
   United States
  </td>
  <td>
   51.29
  </td>
  <td>
  </td>
 </tr>
 <tr>
  <td>
  </td>
  <td>
   5
  </td>
  <td>
   Andriy Serdinov
  </td>
  <td>
   Ukraine
  </td>
  <td>
   51.36
  </td>
  <td>
   EU
  </td>
 </tr>
 <tr>
  <td>
   4
  </td>
  <td>
   1
  </td>
  <td>
   Thomas Rupprath
  </td>
  <td>
   Germany
  </td>
  <td>
   52.27
  </td>
  <td>
  </td>
 </tr>
 <tr>
  <td>
   5
  </td>
  <td>
   6
  </td>
  <td>
   Igor Marchenko
  </td>
  <td>
   Russia
  </td>
  <td>
   52.32
  </td>
  <td>
  </td>
 </tr>
 <tr>
  <td>
   6
  </td>
  <td>
   2
  </td>
  <td>
   Gabriel Mangabeira
  </td>
  <td>
   Brazil
  </td>
  <td>
   52.34
  </td>
  <td>
  </td>
 </tr>
 <tr>
  <td>
   7
  </td>
  <td>
   8
  </td>
  <td>
   Duje Draganja
  </td>
  <td>
   Croatia
  </td>
  <td>
   52.46
  </td>
  <td>
  </td>
 </tr>
 <tr>
  <td>
   8
  </td>
  <td>
   7
  </td>
  <td>
   Geoff Huegill
  </td>
  <td>
   Australia
  </td>
  <td>
   52.56
  </td>
  <td>
  </td>
 </tr>
</table>

レンダリングされたHTML表

Rank	Lane	Name	Nationality	Time	Notes
	4	Michael Phelps	United States	51.25	OR
	3	Ian Crocker	United States	51.29
	5	Andriy Serdinov	Ukraine	51.36	EU
4	1	Thomas Rupprath	Germany	52.27
5	6	Igor Marchenko	Russia	52.32
6	2	Gabriel Mangabeira	Brazil	52.34
7	8	Duje Draganja	Croatia	52.46
8	7	Geoff Huegill	Australia	52.56

📚 ドキュメント

デモアプリ

デモアプリを試してみてください。このアプリには表の検出と認識の両方が含まれています。

注意事項

このモデルは、表のみを含む画像を想定しています。表が文書に埋め込まれている場合は、まず表検出モデルを使用して表を抽出してください（例：Microsoft's Table Transformer model）。
推論時には、max_patch_lengthを変更しないことをお勧めしますが、generation lengthは変更することができます。