trocr-small-spanishオープンソースOCRモデル - 無料でデプロイしてスペイン語の印刷文字を識別

ホーム

Trocr Small Spanish

qantevによって開発

Transformerアーキテクチャに基づいて最適化されたスペイン語活字OCRモデル、手書き文字認識は非対応

文字認識

Transformers

複数言語対応オープンソースライセンス:MIT #スペイン語OCR #活字認識 #Transformerアーキテクチャ

ダウンロード数 270

リリース時間 : 2/22/2024

モデル概要

TrOCR小型モデルはスペイン語の活字テキスト認識に特化して最適化され、視覚TransformerエンコーダーとテキストTransformerデコーダーアーキテクチャを採用し、独自データセットでファインチューニングを実現

モデル特徴

スペイン語特化最適化

200万件のスペイン語サンプルからなる独自データセットでトレーニングされ、活字文字認識に最適化

効率的なアーキテクチャ設計

画像Transformerエンコーダーで視覚的特徴を抽出し、テキストTransformerデコーダーでシーケンスを生成、エンドツーエンド認識を実現

リアルタイムデータ拡張

トレーニング時に動的に拡張画像を生成し、事前保存画像方式に比べて効率が大幅に向上

モデル能力

活字文字認識

スペイン語テキスト抽出

短文レベルのOCR処理

画像からテキストへの変換

使用事例

ドキュメントデジタル化

ウィキペディアコンテンツ抽出

スペイン語ウィキペディアページ画像からテキスト内容を抽出

文字誤り率6.32%（大型モデル）

フォーム処理

XFUNDデータセット処理

スペイン語フォームドキュメントのテキスト認識

EasyOCRを大幅に上回る（CER12.84%低下）

🚀 TrOCR (小型モデル)

この新しい小型TrOCRモデルは、独自に生成したスペイン語データセットでファインチューニングされています。TrOCRアーキテクチャは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で初めて紹介され、関連するリポジトリで利用可能です。

このモデルは印刷字体に特化しており、手書き文字の認識はサポートしていません。

🚀 クイックスタート

このモデルの概要や使用方法をご紹介します。

✨ 主な機能

印刷字体の光学文字認識（OCR）に特化したモデルです。
事前学習モデルを活用し、画像理解と言語モデリングにおいて最先端の性能を発揮します。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

url = 'https://huggingface.co/qantev/trocr-small-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('qantev/trocr-small-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-small-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 ドキュメント

モデルの紹介

TrOCRモデルアーキテクチャは、Transformerフレームワークに基づいており、エンコーダとして画像Transformer、デコーダとしてテキストTransformerを備えています。

エンコーダは入力画像を受け取り、パッチに分解して処理し、視覚的特徴を取得します。これらの特徴は、デコーダによって、視覚情報と以前の予測に基づいて、自己回帰的にワードピースシーケンスを生成するために使用されます。

この設計により、TrOCRは画像理解と言語モデリングのための事前学習モデルを活用し、最先端の性能を達成することができます。

データセット

スペイン語のOCRをトレーニングおよびテストするための公開データセットがなかったため、独自に作成することにしました。これには、131,000件のランダムなWikipediaページをスクレイピングし、単語から10語の文までの2,000,000件のサンプルを抽出する作業が含まれていました。

その後、これらのサンプルから画像を人工的に生成し、さまざまなデータ拡張技術を適用し、以下のような結果を得ました。

注: トレーニング中に画像をオンザフライで生成する方が、事前に作成されたフォルダから読み取るよりも高速であることがわかりました。

評価指標

残念ながら、現在、スペイン語の光学文字認識（OCR）性能を評価するための確立されたベンチマークデータセットはありません。私たちのOCRの有効性を示すために、XFUND データセットのスペイン語版を使用して、小型、ベース、大型のモデルについてベンチマークを提示します。また、EasyOCRとの比較分析も含めています。

Property	Details
Model Type	TrOCR (small sized model)
Training Data	131,000件のランダムなWikipediaページから抽出した2,000,000件のサンプル

	CER	WER
EasyOCR	0.1916	0.3353
qantev/trocr-small-spanish	0.1059	0.2545
qantev/trocr-base-spanish	0.0732	0.2028
qantev/trocr-large-spanish	0.0632	0.1817

(注: XFUNDデータセットには誤ってラベル付けされたデータが含まれている可能性があり、このベンチマークの結果に影響を与える可能性があります。)

想定される用途と制限

このモデルは無料で使用できますが、手書きテキストでトレーニングされていないため、手書き内容を正確に認識できない場合があります。また、2行のテキストや縦書きのテキストを正確に読み取る能力は限られています。

このモデルは、テキスト検出モデルと組み合わせて使用する必要があります。

採用情報

私たちは全レベル（正規の研究者やインターンを含む）で採用中です！コンピュータビジョン、自然言語処理、ドキュメントAIの分野で私たちと一緒に仕事をしたい場合は、jobs@qantev.comに履歴書を送るか、Qantev Job Board の多数の求人に応募してください。

引用

@misc{lauar2024spanishtrocrleveragingtransfer,
      title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation}, 
      author={Filipe Lauar and Valentin Laurent},
      year={2024},
      eprint={2407.06950},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.06950}, 
}