ocrmnistオープンソース光学文字認識モデル - 無料でデプロイ可能、MNISTスタイルの数字画像を高精度で認識

ホーム

Ocrmnist

vanshp123によって開発

Hugging Face Transformersに基づく光学文字認識モデルで、MNISTスタイルの数字画像の識別に特化

文字認識

Transformers

英語オープンソースライセンス:Apache-2.0 #手書き数字OCR #TrOCRアーキテクチャ #事前学習モデル

ダウンロード数 16

リリース時間 : 11/6/2023

モデル概要

このモデルは事前学習済みTrOCRアーキテクチャを利用し、画像からの数字テキスト抽出に適した効率的なOCR機能を実現

モデル特徴

効率的な数字認識

MNISTスタイル数字画像の認識に特化して最適化

事前学習モデル

マイクロソフトTrOCRベースモデルをファインチューニングし、優れたOCR能力を備える

シンプルで使いやすい

Hugging Face Transformersを通じて簡潔なAPIインターフェースを提供

モデル能力

画像内の数字認識

MNISTスタイル画像処理

光学文字認識

使用事例

文書デジタル化

手書き数字認識

スキャン文書や画像中の手書き数字を認識

数字テキスト内容を正確に抽出

フォーム処理

表内数字抽出

表やフォームから数字情報を抽出

データ入力を自動化

🚀 OCR with Hugging Face Transformers

このリポジトリは、Hugging Face Transformersライブラリを使用して光学文字認識（OCR）を実行する方法を示しています。このリポジトリ内のコードは、画像に対するOCRのために事前学習済みのモデルを利用しています。

🚀 クイックスタート

このコードを実行する前に、必要なライブラリをインストールする必要があります。pipを使用して以下のようにインストールできます。

pip install transformers
pip install pillow

💻 使用例

基本的な使用法

以下は、画像に対してOCRを実行するための基本的な手順です。

# 必要なライブラリをインポート
from transformers import VisionEncoderDecoderModel
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# 事前学習済みのOCRモデルとプロセッサをロード
model = VisionEncoderDecoderModel.from_pretrained("vanshp123/ocrmnist")
processor = TrOCRProcessor.from_pretrained('microsoft/trocr-base-stage1')

# OCR対象の画像をロード。"/content/left_digit_section_4.png"をあなたの画像のパスに置き換えてください。
image = Image.open("/content/left_digit_section_4.png").convert("RGB")

# OCRプロセッサを使用して画像を処理し、テキストを生成
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

# generated_textには画像から認識されたテキストが含まれます。