trocr-base-handwrittenオープンソースOCRモデル - 無料でデプロイして手書きテキストを正確に認識

ホーム

Trocr Base Handwritten

microsoftによって開発

TrOCRは、手書きテキスト認識に特化したTransformerベースの光学式文字認識モデルです。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #手書き文字OCR #Transformerアーキテクチャ #単行文書認識

ダウンロード数 206.74k

リリース時間 : 3/2/2022

モデル概要

TrOCRモデルは、画像TransformerとテキストTransformerを組み合わせたエンコーダ-デコーダモデルで、単行文書画像の光学式文字認識タスクに特化して最適化されています。

モデル特徴

Transformerアーキテクチャベース

高度なTransformerアーキテクチャを採用し、画像とテキストの処理能力を結合

事前学習モデルの微調整

画像エンコーダはBEiTで事前学習され、テキストデコーダはRoBERTaで事前学習されています。

手書きテキスト認識の最適化

手書きテキスト認識に適したIAM手書きデータセットで特に微調整されています。

モデル能力

手書きテキスト認識

単行文書画像処理

光学式文字認識

使用事例

文書のデジタル化

手書きノートの文字起こし

手書きノートを編集可能なテキスト形式に変換

歴史文書の処理

歴史的な手書き原稿の文字起こし

歴史的な手書き文書をデジタル化処理

🚀 TrOCR (ベースサイズのモデル、IAMでファインチューニング済み)

TrOCRモデルは、IAMデータセットでファインチューニングされています。このモデルは、Liらによる論文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Modelsで紹介され、このリポジトリで最初に公開されました。

免責事項: TrOCRを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このTrOCRモデルは、画像から文字を認識するための光学文字認識（OCR）に使用できます。以下のセクションでは、モデルの詳細、使用方法、引用情報などを説明します。

✨ 主な機能

TrOCRモデルはエンコーダ - デコーダモデルで、エンコーダとして画像Transformer、デコーダとしてテキストTransformerを使用しています。画像エンコーダはBEiTの重みから初期化され、テキストデコーダはRoBERTaの重みから初期化されます。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みが行われます。シーケンスをTransformerエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加されます。その後、Transformerテキストデコーダが自己回帰的にトークンを生成します。

📚 ドキュメント

想定される用途と制限

この生モデルは、単一行のテキスト画像に対する光学文字認識（OCR）に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

以下は、このモデルをPyTorchで使用する方法の例です。

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-base-handwritten')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-base-handwritten')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

BibTeXエントリと引用情報

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}