mgp-str-base開源OCR模型 - 多粒度預測高效實現場景文本識別

首頁

Mgp Str Base

由alibaba-damo開發

MGP-STR是一個純視覺場景文本識別模型，通過多粒度預測實現高效OCR。

文字識別

Transformers

#場景文本識別 #多粒度預測 #視覺Transformer

下載量 4,981

發布時間 : 11/23/2022

模型概述

該模型用於文本圖像的光學字符識別（OCR），採用ViT架構和特別設計的A^3模塊，支持字符、子詞和單詞級別的多粒度預測。

模型特點

多粒度預測

同時進行字符、子詞和單詞級別的預測，並通過融合策略合併結果

純視覺架構

不依賴語言模型，僅使用視覺特徵進行文本識別

A^3模塊

特別設計的注意力模塊，用於選擇並整合有意義的令牌組合

模型能力

圖像轉文本

場景文本識別

光學字符識別(OCR)

使用案例

文檔數字化

掃描文檔識別

將掃描的文檔圖像轉換為可編輯文本

高精度識別打印體文字

場景文本識別

街景文字識別

識別照片中的街道標誌、商店招牌等文本

可處理不同字體和背景的文本

🚀 MGP-STR (基礎尺寸模型)

MGP-STR基礎尺寸模型是一個用於場景文本識別的模型，它基於ViT和特殊設計的A^3模塊構建，能夠對文本圖像進行多粒度預測。該模型在MJSynth和SynthText數據集上進行訓練，可用於光學字符識別（OCR）任務。

🚀 快速開始

你可以使用以下代碼在PyTorch中使用這個模型：

from transformers import MgpstrProcessor, MgpstrForSceneTextRecognition
import requests
from PIL import Image

processor = MgpstrProcessor.from_pretrained('alibaba-damo/mgp-str-base')
model = MgpstrForSceneTextRecognition.from_pretrained('alibaba-damo/mgp-str-base')

# 從IIIT - 5k數據集中加載圖像
url = "https://i.postimg.cc/ZKwLg2Gw/367-14.png"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

pixel_values = processor(images=image, return_tensors="pt").pixel_values
outputs = model(pixel_values)

generated_text = processor.batch_decode(outputs.logits)['generated_text']

✨ 主要特性

多粒度預測：模型能夠進行字符、子詞甚至單詞級別的多粒度預測，通過簡單有效的融合策略將這些預測結果合併。
特殊模塊設計：採用了專門設計的A^3模塊，該模塊可以從ViT輸出的標記中選擇有意義的組合，並將其整合為對應特定字符的輸出標記。
子詞預測：設計了基於BPE A^3模塊和WordPiece A^3模塊的子詞分類頭，用於子詞預測，從而隱式建模語言信息。

📚 詳細文檔

模型描述

MGP-STR是一個純視覺的場景文本識別（STR）模型，由ViT和特別設計的A^3模塊組成。由於輸入大小不一致，除了補丁嵌入模型外，ViT模塊是從DeiT-base的權重初始化的。

圖像（32x128）以固定大小的補丁序列（分辨率4x4）的形式呈現給模型，這些補丁經過線性嵌入。在將序列輸入到ViT模塊的各層之前，還會添加絕對位置嵌入。接下來，A^3模塊從ViT輸出的標記中選擇有意義的組合，並將它們整合為一個對應特定字符的輸出標記。此外，還設計了基於BPE A^3模塊和WordPiece A^3模塊的子詞分類頭，用於子詞預測，以便隱式地建模語言信息。最後，通過一種簡單而有效的融合策略將這些多粒度預測（字符、子詞甚至單詞）合併。

預期用途和侷限性

你可以使用原始模型對文本圖像進行光學字符識別（OCR）。可以在模型中心中尋找針對你感興趣的任務進行微調的版本。

BibTeX引用和引用信息

@inproceedings{ECCV2022mgp_str,
  title={Multi-Granularity Prediction for Scene Text Recognition},
  author={Peng Wang, Cheng Da, and Cong Yao},
  booktitle = {ECCV},
  year={2022}
}