vit_receipts_classifierオープンソースモデル - 画像が領収書またはレシートかどうかを迅速かつ正確に識別

ホーム

Vit Receipts Classifier

jjmcarrascosaによって開発

ViTアーキテクチャに基づくバイナリ分類モデルで、画像が領収書/レシートかどうかを識別

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #領収書認識 #高精度分類 #財務文書処理

ダウンロード数 75

リリース時間 : 8/26/2022

モデル概要

このモデルはViTアーキテクチャのファインチューニング版で、領収書と非領収書画像のバイナリ分類タスク専用。評価セットで優れた性能を発揮し、F1スコアは0.9991を達成。

モデル特徴

高精度分類

評価セットでF1スコア0.9991を達成し、領収書と非領収書画像を正確に区別可能

多様なデータソースでの学習

CORD、RVL-CDIP、Visual-Genomeなど複数のデータセットを使用してトレーニングし、モデルの汎化能力を強化

多様な画像形式に対応

スキャン画像、写真撮影、携帯電話撮影のカラー/グレースケール画像を処理可能

モデル能力

画像分類

領収書認識

レシート検出

使用事例

文書処理

自動領収書分類

企業財務システムでアップロードされた領収書画像を自動識別・分類

精度99.9%を達成

レシート管理システム

OCR技術と組み合わせ、エンドツーエンドのレシート情報抽出システムを構築

🚀 vit_receipts_classifier

このモデルは、google/vit-base-patch16-224-in21k を cord、rvl-cdip、visual-genome および外部のレシートデータセットでファインチューニングしたもので、Binary Classification（ticket 対 no_ticket）を行うことができます。

ここでの "ticket" は "レシート" の同義語として使用されています。

スキャン、写真、またはモバイル画像形式（カラーおよびグレースケール）の上記データセットの画像を含む評価セットで、以下の結果を達成しています。

損失: 0.0116
F1: 0.9991

✨ 主な機能

モデルの説明

このモデルは、ViT をファインチューニングした二値分類器で、入力画像がレシートの画像/スキャンか、それ以外かを予測します。

想定される用途と制限

このモデルを使用して、画像を ticket または no_ticket に分類できます。ticket グループでは、Visual Named Entity Recognition などのマルチモーダル情報抽出を使用して、チケットの項目、金額、合計などを抽出できます。詳細については、Cord データセットを参照してください。