trocr-small-stage1オープンソースOCRモデル - 単行文本文字画像に適した光学文字認識

ホーム

Trocr Small Stage1

microsoftによって開発

TrOCRはTransformerベースの事前学習光学文字認識モデルで、エンコーダ-デコーダアーキテクチャを採用し、単一行テキスト画像のOCRタスクに適しています。

画像生成テキスト

Transformers

#単一行テキストOCR #Transformerアーキテクチャ #画像からテキストへ

ダウンロード数 3,713

リリース時間 : 3/2/2022

モデル概要

TrOCRモデルは画像TransformerエンコーダとテキストTransformerデコーダを組み合わせ、画像内のテキストを読み取り可能なテキスト内容に変換できます。

モデル特徴

Transformerベースのアーキテクチャ

先進的なTransformerアーキテクチャを採用し、画像とテキストを処理、DeiTとUniLMの利点を組み合わせています。

事前学習モデル

事前学習済みの重みを提供し、OCRタスクに直接使用したり、基礎モデルとして微調整したりできます。

単一行テキスト認識

単一行テキスト画像の光学文字認識タスクに特化して最適化されています。

モデル能力

画像からテキストへ

光学文字認識

単一行テキスト認識

使用事例

文書デジタル化

スキャン文書認識

スキャンした文書画像を編集可能なテキスト内容に変換

高精度なテキスト変換効果

自動化処理

フォーム処理

フォーム内のテキスト情報を自動認識・抽出

データ処理効率の向上

🚀 TrOCR (小型モデル、事前学習のみ)

TrOCRは事前学習のみのモデルです。このモデルは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で紹介され、このリポジトリで最初に公開されました。

✨ 主な機能

TrOCRモデルはエンコーダ・デコーダモデルで、エンコーダとして画像Transformer、デコーダとしてテキストTransformerで構成されています。画像エンコーダはDeiTの重みから初期化され、テキストデコーダはUniLMの重みから初期化されます。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。そして、シーケンスをTransformerエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加されます。次に、Transformerテキストデコーダが自己回帰的にトークンを生成します。

🚀 クイックスタート

このモデルは、単一行のテキスト画像に対する光学文字認識（OCR）に使用できます。関心のあるタスクに対する微調整済みバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

これは、このモデルをPyTorchで使用する方法です。

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
import torch

# load image from the IAM database
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-small-stage1')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-small-stage1')

# training
pixel_values = processor(image, return_tensors="pt").pixel_values  # Batch size 1
decoder_input_ids = torch.tensor([[model.config.decoder.decoder_start_token_id]])
outputs = model(pixel_values=pixel_values, decoder_input_ids=decoder_input_ids)

📚 ドキュメント

BibTeXエントリと引用情報

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}