trocr-large-stage1オープンソースOCRモデル - 無料でのデプロイで文字認識と抽出タスクをサポート

Home

Trocr Large Stage1

Developed by microsoft

TrOCRは、光学文字認識（OCR）タスクのためのTransformerベースの事前学習モデルです。

文字認識

Transformers

#単一行テキストOCR #Transformerアーキテクチャ #画像からテキストへ

Downloads 3,700

Release Time : 3/2/2022

Model Overview

TrOCRは、画像TransformerエンコーダーとテキストTransformerデコーダーで構成されるエンコーダー-デコーダーモデルで、単一行テキスト画像の光学文字認識に特化しています。

Model Features

Transformerベースのアーキテクチャ

先進的なTransformerアーキテクチャを採用し、画像とテキスト処理能力を組み合わせています。

事前学習モデル

モデルの重みは事前学習済みで、直接使用または微調整が可能です。

単一行テキスト認識

単一行テキスト画像の光学文字認識に特化して最適化されています。

Model Capabilities

画像からテキストへ

光学文字認識

単一行テキスト認識

Use Cases

文書のデジタル化

スキャン文書の認識

スキャンした文書画像を編集可能なテキストに変換します。

自動処理

フォーム処理

フォーム内のテキスト情報を自動的に認識し抽出します。

🚀 TrOCR (大型モデル、事前学習のみ)

TrOCRは事前学習のみのモデルです。このモデルは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で紹介され、最初はこのリポジトリで公開されました。

免責事項: TrOCRを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

TrOCRは、事前学習のみのモデルで、光学文字認識（OCR）タスクに使用できます。このモデルは、画像Transformerをエンコーダ、テキストTransformerをデコーダとするエンコーダ・デコーダモデルです。

✨ 主な機能

TrOCRモデルは、エンコーダとして画像Transformer、デコーダとしてテキストTransformerから構成されるエンコーダ・デコーダモデルです。画像エンコーダはBEiTの重みから初期化され、テキストデコーダはRoBERTaの重みから初期化されます。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。シーケンスをTransformerエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加されます。次に、Transformerテキストデコーダが自己回帰的にトークンを生成します。

📚 ドキュメント

想定される用途と制限

この生モデルは、単一行のテキスト画像に対する光学文字認識（OCR）に使用できます。興味のあるタスクに関する微調整済みのバージョンを探すには、モデルハブを参照してください。

使い方

以下は、このモデルをPyTorchで使用する方法です。

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-large-stage1')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-large-stage1')

# training
pixel_values = processor(image, return_tensors="pt").pixel_values  # Batch size 1
decoder_input_ids = torch.tensor([[model.config.decoder.decoder_start_token_id]])
outputs = model(pixel_values=pixel_values, decoder_input_ids=decoder_input_ids)

BibTeXエントリと引用情報

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}