🚀 TrOCR (大型モデル)
このモデルは、自動生成したスペイン語データセットでファインチューニングされた、大型TrOCRモデルの新しいバージョンです。TrOCRアーキテクチャは、Liらによる論文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Modelsで最初に紹介され、関連するリポジトリで利用可能です。
このモデルは印刷フォントに特化しており、手書き文字の認識はサポートしていません。
🚀 クイックスタート
このセクションでは、TrOCRモデルの概要、使用方法、およびその他の関連情報を提供します。
✨ 主な機能
- 印刷フォントの光学文字認識(OCR)に特化。
- 事前学習モデルを活用したTransformerベースのアーキテクチャ。
- スペイン語データセットでファインチューニングされたモデル。
📦 インストール
このモデルはtransformers
ライブラリを使用しています。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
url = 'https://huggingface.co/qantev/trocr-large-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
processor = TrOCRProcessor.from_pretrained('qantev/trocr-large-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-large-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
📚 ドキュメント
モデルの紹介
TrOCRモデルのアーキテクチャは、Transformerフレームワークに基づいており、エンコーダとして画像Transformer、デコーダとしてテキストTransformerを備えています。
エンコーダは入力画像を受け取り、パッチに分解して処理し、視覚的特徴を取得します。これらの特徴は、デコーダによって視覚情報と以前の予測に基づいて、自己回帰的にワードピースシーケンスを生成するために使用されます。
この設計により、TrOCRは画像理解と言語モデリングのための事前学習モデルを活用し、最先端のパフォーマンスを達成しています。
データセット
スペイン語のOCRを訓練およびテストするための公開データセットがなかったため、独自のデータセットを作成することにしました。これには、131,000のランダムなウィキペディアページをスクレイピングし、1語から10語の文までの2,000,000のサンプルを抽出する作業が含まれていました。
その後、これらのサンプルから画像を人工的に生成し、さまざまなデータ拡張技術を適用し、以下のような結果を得ました。
注: 訓練中に画像をオンザフライで生成する方が、事前に作成されたフォルダから読み取るよりも高速であることがわかりました。
評価指標
残念ながら、現在スペイン語の光学文字認識(OCR)性能を評価するための確立されたベンチマークデータセットはありません。このOCRの有効性を示すために、XFUNDデータセットのスペイン語版を使用して、小型、ベース、大型のモデルに対するベンチマークを提示します。また、EasyOCRとの比較分析も含めています。
|
CER |
WER |
EasyOCR |
0.1916 |
0.3353 |
qantev/trocr-small-spanish |
0.1059 |
0.2545 |
qantev/trocr-base-spanish |
0.0732 |
0.2028 |
qantev/trocr-large-spanish |
0.0632 |
0.1817 |
(注: XFUNDデータセットには誤ってラベル付けされたデータが含まれており、このベンチマークの結果に影響を与える可能性があります。)
想定される用途と制限
このモデルは自由に使用できますが、手書きテキストで訓練されていないため、手書き内容を正確に認識できない可能性があります。また、2行のテキストや縦書きのテキストを正確に読み取る能力は限られています。
このモデルは、テキスト検出モデルと組み合わせて使用する必要があります。
🔧 技術詳細
TrOCRアーキテクチャは、Transformerベースの光学文字認識(OCR)モデルです。エンコーダとして画像Transformer、デコーダとしてテキストTransformerを使用しています。この設計により、事前学習モデルを活用して画像理解と言語モデリングを行い、最先端のパフォーマンスを達成しています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
📝 引用
@misc{lauar2024spanishtrocrleveragingtransfer,
title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation},
author={Filipe Lauar and Valentin Laurent},
year={2024},
eprint={2407.06950},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.06950},
}
📞 お問い合わせ
research [at] qantev [dot] com
👨💼 採用情報
私たちはあらゆるレベル(正社員研究者やインターンを含む)で採用を行っています!コンピュータビジョン、自然言語処理、およびドキュメントAIで私たちと一緒に仕事をしたい場合は、履歴書をjobs@qantev.comに送るか、Qantev Job Boardの多数の求人に応募してください。