mgp-str-baseオープンソースOCRモデル - 多粒度予測によるシーンテキスト認識の効率的実現

ホーム

Mgp Str Base

alibaba-damoによって開発

MGP-STRは純粋なビジュアルシーンテキスト認識モデルで、マルチグレイン予測により効率的なOCRを実現します。

文字認識

Transformers

#シーンテキスト認識 #マルチグレイン予測 #ビジョントランスフォーマー

ダウンロード数 4,981

リリース時間 : 11/23/2022

モデル概要

このモデルはテキスト画像の光学文字認識（OCR）に使用され、ViTアーキテクチャと特別に設計されたA^3モジュールを採用し、文字、サブワード、単語レベルのマルチグレイン予測をサポートします。

モデル特徴

マルチグレイン予測

文字、サブワード、単語レベルの予測を同時に行い、融合戦略で結果を統合

純粋ビジュアルアーキテクチャ

言語モデルに依存せず、視覚的特徴のみを使用してテキスト認識を行う

A^3モジュール

意味のあるトークンの組み合わせを選択・統合するために特別に設計されたアテンションモジュール

モデル能力

画像からテキストへ

シーンテキスト認識

光学文字認識(OCR)

使用事例

文書デジタル化

スキャン文書認識

スキャンした文書画像を編集可能なテキストに変換

高精度な印刷文字認識

シーンテキスト認識

街中の文字認識

写真中の道路標識、店舗看板などのテキストを認識

異なるフォントや背景のテキストを処理可能

🚀 MGP-STR (base-sized model)

MGP-STRのベースサイズのモデルは、MJSynthとSynthTextで学習されています。このモデルは論文 Multi-Granularity Prediction for Scene Text Recognition で紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

モデルの読み込み

from transformers import MgpstrProcessor, MgpstrForSceneTextRecognition
import requests
from PIL import Image

processor = MgpstrProcessor.from_pretrained('alibaba-damo/mgp-str-base')
model = MgpstrForSceneTextRecognition.from_pretrained('alibaba-damo/mgp-str-base')

# load image from the IIIT-5k dataset
url = "https://i.postimg.cc/ZKwLg2Gw/367-14.png"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

pixel_values = processor(images=image, return_tensors="pt").pixel_values
outputs = model(pixel_values)

generated_text = processor.batch_decode(outputs.logits)['generated_text']

✨ 主な機能

多粒度予測：文字、サブワード、単語などの多粒度の予測を行うことができます。
言語情報の暗黙的モデリング：BPE A^3モジュールとWordPiece A^3モジュールに基づくサブワード分類ヘッドを使用して、言語情報を暗黙的にモデリングします。
簡単で効果的な融合戦略：多粒度の予測を簡単で効果的な融合戦略で統合します。

📚 ドキュメント

モデルの説明

MGP-STRは純粋なビジョンのSTRモデルで、ViTと特別に設計されたA^3モジュールで構成されています。ViTモジュールは、入力サイズが不一致であるため、パッチ埋め込みモデルを除いて、DeiT-baseの重みから初期化されます。

画像 (32x128) は、固定サイズのパッチ (解像度4x4) のシーケンスとしてモデルに提示され、線形に埋め込まれます。また、シーケンスをViTモジュールのレイヤーに入力する前に、絶対位置埋め込みを追加します。次に、A^3モジュールはViT出力のトークンから意味のある組み合わせを選択し、特定の文字に対応する1つの出力トークンに統合します。さらに、BPE A^3モジュールとWordPiece A^3モジュールに基づくサブワード分類ヘッドがサブワード予測のために設計されており、言語情報を暗黙的にモデル化することができます。最後に、これらの多粒度の予測 (文字、サブワード、さらには単語) は、簡単で効果的な融合戦略を介して統合されます。

想定される用途と制限

このモデルは、テキスト画像の光学文字認識 (OCR) に使用することができます。興味のあるタスクに関する微調整されたバージョンを探すには、モデルハブを参照してください。

BibTeXエントリと引用情報

@inproceedings{ECCV2022mgp_str,
  title={Multi-Granularity Prediction for Scene Text Recognition},
  author={Peng Wang, Cheng Da, and Cong Yao},
  booktitle = {ECCV},
  year={2022}
}