trocr-small-handwrittenオープンソースOCRモデル - 無料でデプロイし、手書きテキスト画像を高精度で認識

ホーム

Trocr Small Handwritten

microsoftによって開発

TrOCRはTransformerベースの光学文字認識モデルで、手書きテキスト画像の認識に特化しています。

文字認識

Transformers

#手書き文字OCR #単行文書認識 #Transformerアーキテクチャ

ダウンロード数 517.96k

リリース時間 : 3/2/2022

モデル概要

TrOCRモデルはエンコーダ - デコーダモデルで、画像TransformerエンコーダとテキストTransformerデコーダで構成され、単行文書画像の光学文字認識（OCR）に特化しています。

モデル特徴

Transformerアーキテクチャを基に

先進的なTransformerアーキテクチャを採用し、画像とテキスト処理能力を結合して、効率的なOCRを実現します。

事前学習モデルの微調整

画像エンコーダはDeiTで事前学習され、テキストデコーダはUniLMで事前学習され、IAM手書きデータセットで微調整されます。

エンドツーエンドの認識

画像入力から直接テキスト出力まで、複雑な前処理ステップを必要としません。

モデル能力

手書きテキスト認識

単行文書画像処理

英語文字認識

使用事例

文書のデジタル化

手書きノートの転写

手書きノート画像を編集可能なテキスト形式に変換します

IAMテストセットの手書きテキストを正確に認識します

歴史資料の処理

歴史的な手稿の転写

歴史的な手書き文書をデジタル化処理します

🚀 TrOCR (小型モデル、IAMでファインチューニング済み)

TrOCRモデルは、IAMデータセットでファインチューニングされています。このモデルは、Liらによる論文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Modelsで紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

TrOCRモデルは、IAMデータセットでファインチューニングされた光学文字認識（OCR）モデルです。このモデルは、画像からテキストを抽出するために使用できます。

✨ 主な機能

画像からテキストを抽出する光学文字認識（OCR）機能。
エンコーダとして画像Transformer、デコーダとしてテキストTransformerを使用したエンコーダ - デコーダモデル。

📚 ドキュメント

モデルの説明

TrOCRモデルはエンコーダ - デコーダモデルで、エンコーダとして画像Transformer、デコーダとしてテキストTransformerで構成されています。画像エンコーダはDeiTの重みから初期化され、テキストデコーダはUniLMの重みから初期化されます。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みが行われます。また、シーケンスをTransformerエンコーダのレイヤーに入力する前に、絶対位置埋め込みが追加されます。次に、Transformerテキストデコーダが自己回帰的にトークンを生成します。

想定される用途と制限

この生モデルは、単一行のテキスト画像に対する光学文字認識（OCR）に使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-small-handwritten')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-small-handwritten')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

BibTeXエントリと引用情報

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}