オープンソースのMistral7B_OCR_to_Json_V1モデル - レシート／請求書画像データの構造化抽出を無料で実現

ホーム

Mistral7b Ocr To Json V1

mychen76によって開発

Mistral-7B-v0.1をファインチューニングしたOCRテキストからJSONへの変換モデルで、レシート/請求書画像からの構造化データ抽出に特化

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #OCRテキストからJSONへの変換 #レシートの構造化解析 #Mistral-7Bのファインチューニング

ダウンロード数 583

リリース時間 : 10/5/2023

モデル概要

このモデルはOCRエンジンが出力したテキスト検出結果を構造化されたJSONオブジェクトに変換し、特にレシートや請求書処理のシナリオに適しています

モデル特徴

OCR後処理の最適化

OCR出力結果に特化して最適化され、OCR認識におけるノイズや不規則なフォーマットを効果的に処理可能

構造化出力

非構造化のOCRテキストを標準化されたJSONフォーマットに変換し、後続の処理や分析を容易にする

性能優位性

テストベンチマークにおいてLlama 2 13Bモデルよりも優れた性能を発揮

モデル能力

レシートテキスト解析

請求書データ抽出

非構造化テキストから構造化JSONへの変換

POSデータ処理

使用事例

小売業界

レシートのデジタル化

紙のレシートをスキャン後、自動的に構造化データに変換

商品、価格、税金などの完全な情報を含むJSONオブジェクトを生成

財務処理

請求書の自動処理

経費精算や会計処理のために請求書のキー情報を自動抽出

請求書番号、日付、金額などのキーフィールドを認識

🚀 mychen76/mistral7b_ocr_to_json_v1

このモデルは、OCRテキストをJSONオブジェクトに変換するタスクに特化して微調整された大規模言語モデル（LLM）です。Mistral-7B-v0.1をベースにしており、テストされたすべてのベンチマークでLlama 2 13Bを上回る性能を発揮します。

🚀 クイックスタート

まずは、モデルを直接ロードする方法を紹介します。以下のコードを使用して、モデルとトークナイザーをロードできます。

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("mychen76/mistral7b_ocr_to_json_v1")
model = AutoModelForCausalLM.from_pretrained("mychen76/mistral7b_ocr_to_json_v1")

prompt=f"""### Instruction:
You are POS receipt data expert, parse, detect, recognize and convert following receipt OCR image result into structure receipt data object. 
Don't make up value not in the Input. Output must be a well-formed JSON object.```json

### Input:
{receipt_boxes}

### Output:
"""
with torch.inference_mode():
    inputs = tokenizer(prompt,return_tensors="pt",truncation=True).to(device)
    outputs = model.generate(**inputs, max_new_tokens=512) 
    result_text = tokenizer.batch_decode(outputs)[0]
    print(result_text)

✨ 主な機能

OCRテキストからJSONオブジェクトへの変換：レシートや請求書のOCR画像から得られたテキストを構造化されたJSONオブジェクトに変換します。
高性能：Mistral-7B-v0.1をベースにしているため、テストされたすべてのベンチマークでLlama 2 13Bを上回る性能を発揮します。

📦 インストール

モデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下は、レシート画像をOCRしてJSONオブジェクトに変換する基本的な使用例です。

from paddleocr import PaddleOCR, draw_ocr
from ast import literal_eval
import json

paddleocr = PaddleOCR(lang="en",ocr_version="PP-OCRv4",show_log = False,use_gpu=True)

def paddle_scan(paddleocr,img_path_or_nparray):
    result = paddleocr.ocr(img_path_or_nparray,cls=True)
    result = result[0]
    boxes = [line[0] for line in result]       #boundign box 
    txts = [line[1][0] for line in result]     #raw text
    scores = [line[1][1] for line in result]   # scores
    return  txts, result

# perform ocr scan
receipt_texts, receipt_boxes = paddle_scan(paddleocr,receipt_image_array)
print(50*"--","\ntext only:\n",receipt_texts)
print(50*"--","\nocr boxes:\n",receipt_boxes)

高度な使用法

モデルを4ビット量子化してロードすることで、GPUメモリの使用量を削減できます。以下は、4ビット量子化でモデルをロードする例です。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig, BitsAndBytesConfig

# quantization_config = BitsAndBytesConfig(llm_int8_enable_fp32_cpu_offload=True)
bnb_config = BitsAndBytesConfig(
    llm_int8_enable_fp32_cpu_offload=True,
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)
# control model memory allocation between devices for low GPU resource (0,cpu)
device_map = {
    "transformer.word_embeddings": 0,
    "transformer.word_embeddings_layernorm": 0,
    "lm_head": 0,
    "transformer.h": 0,
    "transformer.ln_f": 0,
    "model.embed_tokens": 0,
    "model.layers":0,
    "model.norm":0    
}
device = "cuda" if torch.cuda.is_available() else "cpu"

# model use for inference
model_id="mychen76/mistral7b_ocr_to_json_v1"
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    trust_remote_code=True,  
    torch_dtype=torch.float16,
    quantization_config=bnb_config,
    device_map=device_map)
# tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)