🚀 TrOCR (小型モデル)
この新しい小型TrOCRモデルは、独自に生成したスペイン語データセットでファインチューニングされています。TrOCRアーキテクチャは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で初めて紹介され、関連する リポジトリ で利用可能です。
このモデルは印刷字体に特化しており、手書き文字の認識はサポートしていません。
🚀 クイックスタート
このモデルの概要や使用方法をご紹介します。
✨ 主な機能
- 印刷字体の光学文字認識(OCR)に特化したモデルです。
- 事前学習モデルを活用し、画像理解と言語モデリングにおいて最先端の性能を発揮します。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
url = 'https://huggingface.co/qantev/trocr-small-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
processor = TrOCRProcessor.from_pretrained('qantev/trocr-small-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-small-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
📚 ドキュメント
モデルの紹介
TrOCRモデルアーキテクチャは、Transformerフレームワークに基づいており、エンコーダとして画像Transformer、デコーダとしてテキストTransformerを備えています。
エンコーダは入力画像を受け取り、パッチに分解して処理し、視覚的特徴を取得します。これらの特徴は、デコーダによって、視覚情報と以前の予測に基づいて、自己回帰的にワードピースシーケンスを生成するために使用されます。
この設計により、TrOCRは画像理解と言語モデリングのための事前学習モデルを活用し、最先端の性能を達成することができます。
データセット
スペイン語のOCRをトレーニングおよびテストするための公開データセットがなかったため、独自に作成することにしました。これには、131,000件のランダムなWikipediaページをスクレイピングし、単語から10語の文までの2,000,000件のサンプルを抽出する作業が含まれていました。
その後、これらのサンプルから画像を人工的に生成し、さまざまなデータ拡張技術を適用し、以下のような結果を得ました。
注: トレーニング中に画像をオンザフライで生成する方が、事前に作成されたフォルダから読み取るよりも高速であることがわかりました。
評価指標
残念ながら、現在、スペイン語の光学文字認識(OCR)性能を評価するための確立されたベンチマークデータセットはありません。私たちのOCRの有効性を示すために、XFUND データセットのスペイン語版を使用して、小型、ベース、大型のモデルについてベンチマークを提示します。また、EasyOCRとの比較分析も含めています。
Property |
Details |
Model Type |
TrOCR (small sized model) |
Training Data |
131,000件のランダムなWikipediaページから抽出した2,000,000件のサンプル |
|
CER |
WER |
EasyOCR |
0.1916 |
0.3353 |
qantev/trocr-small-spanish |
0.1059 |
0.2545 |
qantev/trocr-base-spanish |
0.0732 |
0.2028 |
qantev/trocr-large-spanish |
0.0632 |
0.1817 |
(注: XFUNDデータセットには誤ってラベル付けされたデータが含まれている可能性があり、このベンチマークの結果に影響を与える可能性があります。)
想定される用途と制限
このモデルは無料で使用できますが、手書きテキストでトレーニングされていないため、手書き内容を正確に認識できない場合があります。また、2行のテキストや縦書きのテキストを正確に読み取る能力は限られています。
このモデルは、テキスト検出モデルと組み合わせて使用する必要があります。
採用情報
私たちは全レベル(正規の研究者やインターンを含む)で採用中です!コンピュータビジョン、自然言語処理、ドキュメントAIの分野で私たちと一緒に仕事をしたい場合は、jobs@qantev.comに履歴書を送るか、Qantev Job Board の多数の求人に応募してください。
引用
@misc{lauar2024spanishtrocrleveragingtransfer,
title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation},
author={Filipe Lauar and Valentin Laurent},
year={2024},
eprint={2407.06950},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.06950},
}
お問い合わせ
research [at] qantev [dot] com
ライセンス
このモデルはMITライセンスの下で提供されています。