trocr-small-photomathオープンソースの数学式認識モデル - 無料で高精度な光学文字認識を実現

ホーム

Trocr Small Photomath

vukpetarによって開発

TrOCRはTransformerベースの光学文字認識モデルで、数式認識に特化して微調整されており、エンコーダ-デコーダアーキテクチャを採用し、BEiT画像エンコーダとRoBERTaテキストデコーダを組み合わせています。

文字認識

Transformers

#数式OCR #Transformerアーキテクチャ #単一行テキスト認識

ダウンロード数 389

リリース時間 : 3/2/2022

モデル概要

このモデルは単一行テキスト画像の光学文字認識（OCR）に使用され、特に数式に最適化されています。

モデル特徴

数式専用

数式認識に特化して微調整されており、数式や記号の処理に適しています

Transformerアーキテクチャ

先進的なTransformerアーキテクチャを採用し、視覚と言語処理能力を兼ね備えています

事前学習モデルの微調整

BEiTとRoBERTaの事前学習モデルを基にしており、強力な転移学習能力を持っています

モデル能力

単一行テキスト認識

数式認識

画像からテキストへの変換

使用事例

教育技術

数学課題の採点

学生の手書きまたは印刷された数式を自動認識

採点効率の向上、人的ミスの削減

文書デジタル化

科学論文処理

数式を含む紙文書を編集可能なテキストに変換

文書検索と内容分析の容易化

🚀 TrOCR (小型モデル、合成数学式データセットでファインチューニング済み)

TrOCRモデルは、合成数学式データセットでファインチューニングされています。このモデルは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で紹介され、最初はこのリポジトリで公開されました。

免責事項: TrOCRを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

TrOCRモデルは、合成数学式データセットでファインチューニングされた光学文字認識（OCR）モデルです。このモデルは、画像トランスフォーマーをエンコーダー、テキストトランスフォーマーをデコーダーとするエンコーダー・デコーダーモデルです。

✨ 主な機能

画像トランスフォーマーをエンコーダー、テキストトランスフォーマーをデコーダーとするエンコーダー・デコーダーモデル。
画像エンコーダーはBEiTの重みで初期化、テキストデコーダーはRoBERTaの重みで初期化。
単一行のテキスト画像に対する光学文字認識（OCR）に使用可能。

📚 ドキュメント

モデルの説明

TrOCRモデルはエンコーダー・デコーダーモデルで、エンコーダーとして画像トランスフォーマー、デコーダーとしてテキストトランスフォーマーを使用しています。画像エンコーダーはBEiTの重みで初期化され、テキストデコーダーはRoBERTaの重みで初期化されています。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みが行われます。シーケンスをトランスフォーマーエンコーダーのレイヤーに入力する前に、絶対位置埋め込みも追加されます。次に、トランスフォーマーのテキストデコーダーが自己回帰的にトークンを生成します。

想定される用途と制限

この生モデルは、単一行のテキスト画像に対する光学文字認識（OCR）に使用できます。関心のあるタスクに対するファインチューニング済みのバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import VisionEncoderDecoderModel, AutoFeatureExtractor, AutoTokenizer
from PIL import Image
import requests

# load image from the IAM database
url = 'https://drive.google.com/uc?export=view&id=15dUjO44YDe1Agw_Qi8MyODRHpUFaCFw-'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

feature_extractor = AutoFeatureExtractor.from_pretrained('vukpetar/trocr-small-photomath')
tokenizer = AutoTokenizer.from_pretrained("vukpetar/trocr-small-photomath")
model = VisionEncoderDecoderModel.from_pretrained('vukpetar/trocr-small-photomath')
pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

📄 ライセンス

BibTeXエントリと引用情報

@misc{li2021trocr,
  title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
  author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
  year={2021},
  eprint={2109.10282},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}