trocr-large-strオープンソースOCRモデル - 無料でデプロイ可能、单行テキスト画像の文字を精度よく認識

ホーム

Trocr Large Str

microsoftによって開発

TrOCRはTransformerベースの光学文字認識モデルで、単行テキスト画像向けに設計され、複数の標準データセットでファインチューニングされています。

文字認識

Transformers

#単行テキスト認識 #Transformerアーキテクチャ #事前学習モデル

ダウンロード数 571

リリース時間 : 9/8/2022

モデル概要

TrOCRモデルは画像TransformerエンコーダーとテキストTransformerデコーダーを組み合わせており、画像からテキスト内容を効率的に認識できます。

モデル特徴

Transformerアーキテクチャベース

先進的なTransformerアーキテクチャを採用し、画像とテキスト処理能力を統合

複数データセットでのファインチューニング

IC13、IC15、IIIT5K、SVTなどの標準データセットでファインチューニング済み

事前学習モデルによる初期化

画像エンコーダーはBEiTで、テキストデコーダーはRoBERTaで初期化

モデル能力

単行テキスト画像認識

光学文字認識

画像からテキストへの変換

使用事例

文書デジタル化

スキャン文書認識

スキャンした紙文書を編集可能なテキストに変換

高精度なテキスト変換

シーンテキスト認識

街中の文字認識

写真に写った道路標識や広告文字を認識

様々なフォントや背景の文字を認識可能

🚀 TrOCR (大型モデル、STRベンチマークでファインチューニング済み)

TrOCRモデルは、IC13、IC15、IIIT5K、SVTのトレーニングセットでファインチューニングされています。このモデルは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

TrOCRモデルは、IC13、IC15、IIIT5K、SVTのトレーニングセットでファインチューニングされた光学文字認識（OCR）モデルです。このモデルは、画像トランスフォーマーをエンコーダー、テキストトランスフォーマーをデコーダーとするエンコーダー・デコーダーモデルです。

✨ 主な機能

画像トランスフォーマーをエンコーダー、テキストトランスフォーマーをデコーダーとするエンコーダー・デコーダーモデル。
画像エンコーダーはBEiTの重みから、テキストデコーダーはRoBERTaの重みから初期化されます。
単一のテキスト行画像の光学文字認識（OCR）に使用できます。

📚 ドキュメント

モデルの説明

TrOCRモデルはエンコーダー・デコーダーモデルで、エンコーダーとして画像トランスフォーマー、デコーダーとしてテキストトランスフォーマーで構成されています。画像エンコーダーはBEiTの重みから初期化され、テキストデコーダーはRoBERTaの重みから初期化されます。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。また、シーケンスをトランスフォーマーエンコーダーのレイヤーに入力する前に、絶対位置埋め込みも追加されます。次に、トランスフォーマーのテキストデコーダーが自己回帰的にトークンを生成します。

想定される用途と制限

この生モデルは、単一のテキスト行画像の光学文字認識（OCR）に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IIIT-5k dataset
url = 'https://i.postimg.cc/ZKwLg2Gw/367-14.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-large-str')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-large-str')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

BibTeX引用

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}