🚀 TrOCR (ベースサイズのモデル)
私たちは、独自に生成したスペイン語データセットでファインチューニングされた、新しいバージョンのベースTrOCRモデルを発表します。TrOCRアーキテクチャは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で最初に紹介され、関連する リポジトリ で利用可能です。
このモデルは印刷字体に特化しており、手書き文字の認識はサポートしていません。
🚀 クイックスタート
このモデルは画像からテキストを認識するために使用できます。以下のセクションでは、モデルの詳細、使用方法、性能指標などについて説明します。
✨ 主な機能
- 印刷字体の光学文字認識(OCR)に特化したモデルです。
- 事前学習モデルを活用したTransformerベースのアーキテクチャを採用しています。
- スペイン語のOCRタスクに最適化されています。
📦 インストール
このモデルは transformers
ライブラリを通じて使用できます。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
url = 'https://huggingface.co/qantev/trocr-base-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
processor = TrOCRProcessor.from_pretrained('qantev/trocr-base-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-base-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
📚 ドキュメント
モデルの紹介
TrOCRモデルのアーキテクチャはTransformerフレームワークに基づいており、エンコーダとして画像Transformer、デコーダとしてテキストTransformerを備えています。
エンコーダは入力画像を受け取り、それをパッチに分解し、処理して視覚的な特徴を取得します。これらの特徴は、視覚情報と以前の予測に基づいて、デコーダによってオートレグレッシブな方法でワードピースシーケンスを生成するために使用されます。
この設計により、TrOCRは画像理解と言語モデリングのための事前学習モデルを活用することができ、最先端の性能を達成しています。
データセット
スペイン語のOCRをトレーニングおよびテストするための公開データセットがなかったため、独自のデータセットを作成することにしました。これには、131,000のランダムなウィキペディアページをスクレイピングし、1単語から10単語の文までの2,000,000のサンプルを抽出することが含まれていました。
その後、これらのサンプルから人工的に画像を生成し、さまざまなデータ拡張技術を適用し、以下のような結果を得ました。
注: トレーニング中に画像をオンザフライで生成する方が、事前に作成されたフォルダから読み取るよりも高速であることがわかりました。
性能指標
残念ながら、現在スペイン語の光学文字認識(OCR)性能を評価するための確立されたベンチマークデータセットはありません。私たちのOCRの有効性を示すために、小、ベース、大のモデルについて XFUND データセット(スペイン語版)のベンチマークを提示します。さらに、EasyOCRとの比較分析も含めています。
プロパティ |
詳細 |
モデルタイプ |
TrOCR (ベースサイズのモデル) |
トレーニングデータ |
131,000のランダムなウィキペディアページから抽出された2,000,000のサンプル |
モデル |
CER |
WER |
EasyOCR |
0.1916 |
0.3353 |
qantev/trocr-small-spanish |
0.1059 |
0.2545 |
qantev/trocr-base-spanish |
0.0732 |
0.2028 |
qantev/trocr-large-spanish |
0.0632 |
0.1817 |
(注: XFUNDデータセットには誤ラベル付けされたデータが含まれている可能性があり、このベンチマークの結果に影響を与える可能性があります。)
想定される用途と制限
このモデルは自由に使用できますが、手書きテキストでトレーニングされていないため、手書き文字を正確に認識できない可能性があります。また、2行のテキストや縦書きのテキストを正確に読み取る能力は限られています。
このモデルは、テキスト検出モデルと組み合わせて使用する必要があります。
🔧 技術詳細
TrOCRモデルアーキテクチャは、画像Transformerをエンコーダとして、テキストTransformerをデコーダとして使用するTransformerフレームワークに基づいています。エンコーダは入力画像をパッチに分解し、視覚的な特徴を抽出します。デコーダは、これらの特徴を使用して、オートレグレッシブな方法でワードピースシーケンスを生成します。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
@misc{lauar2024spanishtrocrleveragingtransfer,
title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation},
author={Filipe Lauar and Valentin Laurent},
year={2024},
eprint={2407.06950},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.06950},
}
お問い合わせ
research [at] qantev [dot] com
採用情報
私たちは全レベル(正社員研究者やインターンを含む)で採用中です!コンピュータビジョン、自然言語処理、およびドキュメントAIで私たちと一緒に仕事をしたい場合は、履歴書をjobs@qantev.comに送るか、Qantevの求人ボード の多数の募集職種に応募してください。