trocr-large-handwritten-frオープンソースモデル - フランス語の単行文書画像を無料でデプロイして識別

ホーム

Trocr Large Handwritten Fr

agombertoによって開発

フランス語手書きテキスト向けのTrOCR基本モデルで、2段階ファインチューニング戦略で訓練され、単一行テキスト画像認識に適している

文字認識

Transformers

フランス語オープンソースライセンス:MIT #フランス語手書きOCR #2段階ファインチューニング #国勢調査テキスト認識

ダウンロード数 806

リリース時間 : 5/9/2023

モデル概要

Transformerアーキテクチャに基づくフランス語手書き体光学文字認識モデルで、フランスのアーカイブや国勢調査などの手書き文書処理に特化して設計されている

モデル特徴

フランス語特化最適化

フランス語の語彙や名前の特徴に特化して訓練され、特にフランスのアーカイブ文書に適応している

2段階訓練戦略

最初に生成データで事前訓練し、その後実際の手書きデータセットでファインチューニングする

混合データセット訓練

生成データと実際のフランス国勢調査/アーカイブデータセットを組み合わせている

モデル能力

フランス語手書きテキスト認識

単一行テキスト画像処理

歴史文書のデジタル化

使用事例

アーカイブのデジタル化

フランス国勢調査記録の転写

歴史的な国勢調査フォームの手書き情報を自動認識

CER 0.0575 / WER 0.1651

歴史アーカイブ処理

フランスの歴史アーカイブ文書に対してOCR処理を実施

CER 0.09417 / WER 0.23485

🚀 TrOCR base handwritten for French

TrOCRの手書き文字認識モデルのフランス語版は未リリースです。そこで、PoC目的でフランス語用のモデルを学習しました。このモデルをベースに、より多くのデータを収集して1段階目の追加学習や、2段階目の微調整を行うことを推奨します。

🚀 クイックスタート

TrOCRの手書き文字認識モデルのフランス語版は未リリースであるため、PoC目的でフランス語用のモデルを学習しました。このモデルは、論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models で紹介された English large handwritten trOCR model の特殊なケースです。

✨ 主な機能

フランス語の手書き文字を認識することができます。
2つのデータセットと1つの生成データセットを用いて2段階で微調整されています。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
from PIL import Image
import requests
from io import BytesIO

url = "https://github.com/agombert/trocr-base-printed-fr/blob/main/sample_imgs/5.jpg"
response = requests.get(url)
img = Image.open(BytesIO(response.content))

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-large-handwritten')
model = VisionEncoderDecoderModel.from_pretrained('agomberto/trocr-large-handwritten-fr')
tokenizer = AutoTokenizer.from_pretrained('agomberto/trocr-large-handwritten-fr')

pixel_values = (processor(images=img, return_tensors="pt").pixel_values)
generated_ids = model.generate(pixel_values)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 ドキュメント

モデルの概要

TrOCRモデルはエンコーダ・デコーダモデルで、エンコーダに画像Transformer、デコーダにテキストTransformerを使用しています。画像エンコーダはBEiTの重みで初期化され、テキストデコーダはRoBERTaの重みで初期化されています。

意図された用途と制限

このモデルは、単一行の手書き文字画像の光学文字認識（OCR）に使用できます。

パラメータ

ハイパーパラメータの個別調整は行わず、ヒューリスティックなパラメータを使用しました。

Property	Details
learning_rate	4e-5
epochs	20
fp16	True
max_length	64
batch_size	128
split train/dev	90/10

評価指標

開発セットとテストセットでの評価結果は以下の通りです。

開発セット

Property	Details
セットのサイズ	French Censusから700例 / 独自データセットから1600例
CER	0.0575
WER	0.1651
Loss	0.5768

テストセット

Property	Details
セットのサイズ	French Censusから730例 / 独自データセットから950例
CER	0.09417
WER	0.23485
Loss	0.8700

微調整の手順

2つのデータセットと1つの生成データセットを用いて2段階で微調整を行いました。

名前、姓、職業、都市名、数字のリストと Text Data Generator を使用して70000行のデータを作成しました。 a. フランス語の語彙や名前に適応させるため、このデータセットのみで10エポック学習させました。
2つの手書きデータセットで20エポック微調整しました。 a. Constumらの French Census dataset。ハブ上にもデータセットを作成しました。 b. 近日公開予定のフランスのアーカイブに関するデータセット - 11000行、手動でアノテーション付けされています。

🔧 技術詳細

TrOCRモデルは、画像を固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力し、線形埋め込みを行います。その後、絶対位置埋め込みを追加してからTransformerエンコーダのレイヤーに入力します。次に、Transformerテキストデコーダが自己回帰的にトークンを生成します。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

BibTeXエントリと引用情報

@miscellaneous{
  author    = {Arnault Gombert & Marie Beigelman},
  title     = {TrOCR in French: adapt to french archives},
  year      = {2023}
}

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご