trocr-base-spanishオープンソースモデル - スペイン語の印刷字体識別用に特別に設計された実用的なツール

ホーム

Trocr Base Spanish

qantevによって開発

TrOCRベースモデル、スペイン語印刷字体向けに設計、Transformerアーキテクチャに基づき、独自データセットで微調整

文字認識

Transformers

複数言語対応オープンソースライセンス:MIT #スペイン語OCR #印刷体認識 #Transformerアーキテクチャ

ダウンロード数 170

リリース時間 : 2/22/2024

モデル概要

Transformerベースの光学文字認識モデル、印刷体画像をテキストに変換する用途、手書き体認識は非対応

モデル特徴

スペイン語最適化

200万スペイン語サンプルの独自データセットで微調整、スペイン語OCR性能を専門に最適化

動的画像生成

トレーニング過程で動的画像生成技術を採用、事前保存画像方式より効率的

印刷体専用

印刷字体に特化して設計、手書き体認識は非対応

モデル能力

印刷体画像からテキスト変換

スペイン語OCR

短いテキスト認識（最大10単語）

使用事例

文書デジタル化

ウィキペディアコンテンツ抽出

スペイン語ウィキペディアページ画像からテキスト内容を抽出

フォーム処理

XFUNDデータセット処理

スペイン語XFUNDデータセット内のフォーム画像を処理

CER 0.0732 / WER 0.2028

🚀 TrOCR (ベースサイズのモデル)

私たちは、独自に生成したスペイン語データセットでファインチューニングされた、新しいバージョンのベースTrOCRモデルを発表します。TrOCRアーキテクチャは、Liらによる論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で最初に紹介され、関連するリポジトリで利用可能です。

このモデルは印刷字体に特化しており、手書き文字の認識はサポートしていません。

🚀 クイックスタート

このモデルは画像からテキストを認識するために使用できます。以下のセクションでは、モデルの詳細、使用方法、性能指標などについて説明します。

✨ 主な機能

印刷字体の光学文字認識（OCR）に特化したモデルです。
事前学習モデルを活用したTransformerベースのアーキテクチャを採用しています。
スペイン語のOCRタスクに最適化されています。

📦 インストール

このモデルは transformers ライブラリを通じて使用できます。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

url = 'https://huggingface.co/qantev/trocr-base-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('qantev/trocr-base-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-base-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 ドキュメント

モデルの紹介

TrOCRモデルのアーキテクチャはTransformerフレームワークに基づいており、エンコーダとして画像Transformer、デコーダとしてテキストTransformerを備えています。

エンコーダは入力画像を受け取り、それをパッチに分解し、処理して視覚的な特徴を取得します。これらの特徴は、視覚情報と以前の予測に基づいて、デコーダによってオートレグレッシブな方法でワードピースシーケンスを生成するために使用されます。

この設計により、TrOCRは画像理解と言語モデリングのための事前学習モデルを活用することができ、最先端の性能を達成しています。

データセット

スペイン語のOCRをトレーニングおよびテストするための公開データセットがなかったため、独自のデータセットを作成することにしました。これには、131,000のランダムなウィキペディアページをスクレイピングし、1単語から10単語の文までの2,000,000のサンプルを抽出することが含まれていました。

その後、これらのサンプルから人工的に画像を生成し、さまざまなデータ拡張技術を適用し、以下のような結果を得ました。

注: トレーニング中に画像をオンザフライで生成する方が、事前に作成されたフォルダから読み取るよりも高速であることがわかりました。

性能指標

残念ながら、現在スペイン語の光学文字認識（OCR）性能を評価するための確立されたベンチマークデータセットはありません。私たちのOCRの有効性を示すために、小、ベース、大のモデルについて XFUND データセット（スペイン語版）のベンチマークを提示します。さらに、EasyOCRとの比較分析も含めています。

プロパティ	詳細
モデルタイプ	TrOCR (ベースサイズのモデル)
トレーニングデータ	131,000のランダムなウィキペディアページから抽出された2,000,000のサンプル

モデル	CER	WER
EasyOCR	0.1916	0.3353
qantev/trocr-small-spanish	0.1059	0.2545
qantev/trocr-base-spanish	0.0732	0.2028
qantev/trocr-large-spanish	0.0632	0.1817

(注: XFUNDデータセットには誤ラベル付けされたデータが含まれている可能性があり、このベンチマークの結果に影響を与える可能性があります。)

想定される用途と制限

このモデルは自由に使用できますが、手書きテキストでトレーニングされていないため、手書き文字を正確に認識できない可能性があります。また、2行のテキストや縦書きのテキストを正確に読み取る能力は限られています。

このモデルは、テキスト検出モデルと組み合わせて使用する必要があります。

🔧 技術詳細

TrOCRモデルアーキテクチャは、画像Transformerをエンコーダとして、テキストTransformerをデコーダとして使用するTransformerフレームワークに基づいています。エンコーダは入力画像をパッチに分解し、視覚的な特徴を抽出します。デコーダは、これらの特徴を使用して、オートレグレッシブな方法でワードピースシーケンスを生成します。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

@misc{lauar2024spanishtrocrleveragingtransfer,
      title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation}, 
      author={Filipe Lauar and Valentin Laurent},
      year={2024},
      eprint={2407.06950},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.06950}, 
}