🚀 TrOCR (小型モデル、合成数学式データセットでファインチューニング済み)
TrOCRモデルは、合成数学式データセットでファインチューニングされています。このモデルは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で紹介され、最初は このリポジトリ で公開されました。
免責事項: TrOCRを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。
🚀 クイックスタート
TrOCRモデルは、合成数学式データセットでファインチューニングされた光学文字認識(OCR)モデルです。このモデルは、画像トランスフォーマーをエンコーダー、テキストトランスフォーマーをデコーダーとするエンコーダー・デコーダーモデルです。
✨ 主な機能
- 画像トランスフォーマーをエンコーダー、テキストトランスフォーマーをデコーダーとするエンコーダー・デコーダーモデル。
- 画像エンコーダーはBEiTの重みで初期化、テキストデコーダーはRoBERTaの重みで初期化。
- 単一行のテキスト画像に対する光学文字認識(OCR)に使用可能。
📚 ドキュメント
モデルの説明
TrOCRモデルはエンコーダー・デコーダーモデルで、エンコーダーとして画像トランスフォーマー、デコーダーとしてテキストトランスフォーマーを使用しています。画像エンコーダーはBEiTの重みで初期化され、テキストデコーダーはRoBERTaの重みで初期化されています。
画像は固定サイズのパッチ(解像度16x16)のシーケンスとしてモデルに入力され、線形埋め込みが行われます。シーケンスをトランスフォーマーエンコーダーのレイヤーに入力する前に、絶対位置埋め込みも追加されます。次に、トランスフォーマーのテキストデコーダーが自己回帰的にトークンを生成します。
想定される用途と制限
この生モデルは、単一行のテキスト画像に対する光学文字認識(OCR)に使用できます。関心のあるタスクに対するファインチューニング済みのバージョンを探すには、モデルハブを参照してください。
💻 使用例
基本的な使用法
from transformers import VisionEncoderDecoderModel, AutoFeatureExtractor, AutoTokenizer
from PIL import Image
import requests
url = 'https://drive.google.com/uc?export=view&id=15dUjO44YDe1Agw_Qi8MyODRHpUFaCFw-'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
feature_extractor = AutoFeatureExtractor.from_pretrained('vukpetar/trocr-small-photomath')
tokenizer = AutoTokenizer.from_pretrained("vukpetar/trocr-small-photomath")
model = VisionEncoderDecoderModel.from_pretrained('vukpetar/trocr-small-photomath')
pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📄 ライセンス
BibTeXエントリと引用情報
@misc{li2021trocr,
title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models},
author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
year={2021},
eprint={2109.10282},
archivePrefix={arXiv},
primaryClass={cs.CL}
}