dit-large-finetuned-rvlcdipオープンソースドキュメント画像分類モデル

ホーム

Dit Large Finetuned Rvlcdip

microsoftによって開発

IIT-CDIPで事前学習し、RVL-CDIPでファインチューニングされた文書画像分類モデル、Transformerアーキテクチャを採用

画像分類

Transformers

#文書画像分類 #自己教師あり事前学習 #RVL-CDIPファインチューニング

ダウンロード数 67

リリース時間 : 3/7/2022

モデル概要

このモデルは大規模な文書画像コレクションで自己教師あり方式で事前学習されたTransformerエンコーダーで、主に文書画像分類などのタスクに使用されます

モデル特徴

大規模事前学習

IIT-CDIPデータセットの4200万枚の文書画像で事前学習

専門分野ファインチューニング

RVL-CDIP文書画像データセットでファインチューニング、16カテゴリを含む

Transformerアーキテクチャ

BEiTと同じTransformerエンコーダーアーキテクチャを採用

自己教師あり学習

マスク画像ブロック予測タスクを使用して事前学習

モデル能力

文書画像分類

文書特徴抽出

画像ブロックエンコーディング

使用事例

文書処理

文書分類

文書画像を16の事前定義カテゴリに分類

RVL-CDIPデータセットで良好なパフォーマンス

表検出

文書内の表領域を識別

文書レイアウト分析

文書のレイアウト構造を分析

🚀 ドキュメント画像トランスフォーマー (大型モデル)

Document Image Transformer (DiT) は、4200万枚のドキュメント画像を含むIIT - CDIP (Lewis et al., 2006) データセットで事前学習され、16クラスの40万枚のグレースケール画像（クラスごとに25,000枚）からなる RVL - CDIP データセットで微調整されたモデルです。このモデルは、Li et al.による論文 DiT: Self - supervised Pre - training for Document Image Transformer で紹介され、このリポジトリで最初に公開されました。なお、DiTのアーキテクチャは BEiT と同じです。

免責事項: DiTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

Document Image Transformer (DiT) は、大量の画像コレクションを自己教師付き学習で事前学習したトランスフォーマーエンコーダモデル（BERTライク）です。このモデルは、文書画像をベクトル空間にエンコードするために使用でき、文書画像分類や表検出、文書レイアウト分析などのタスクに微調整することが主な用途です。

✨ 主な機能

自己教師付き学習による大量の画像データでの事前学習
文書画像をベクトル空間にエンコードする能力
文書画像分類、表検出、文書レイアウト分析などのタスクへの微調整が可能

📚 ドキュメント

モデルの説明

Document Image Transformer (DiT) は、自己教師付き方式で大量の画像コレクションを事前学習したトランスフォーマーエンコーダモデル（BERTライク）です。このモデルの事前学習の目的は、マスクされたパッチに基づいて、離散VAE (dVAE) のエンコーダから視覚トークンを予測することです。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形に埋め込まれます。また、シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みが追加されます。

モデルを事前学習することで、画像の内部表現を学習し、下流のタスクに役立つ特徴を抽出することができます。たとえば、ラベル付きの文書画像のデータセットがある場合、事前学習されたエンコーダの上に線形層を配置して、標準的な分類器を学習することができます。

想定される用途と制限

生のモデルを使用して文書画像をベクトル空間にエンコードすることができますが、主に文書画像分類、表検出、文書レイアウト分析などのタスクに微調整することを想定しています。興味のあるタスクに関する微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image

image = Image.open('path_to_your_document_image').convert('RGB')

processor = AutoImageProcessor.from_pretrained("microsoft/dit-large-finetuned-rvlcdip")
model = AutoModelForImageClassification.from_pretrained("microsoft/dit-large-finetuned-rvlcdip")

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits

# model predicts one of the 16 RVL-CDIP classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

BibTeXエントリと引用情報

@article{Lewis2006BuildingAT,
  title={Building a test collection for complex document information processing},
  author={David D. Lewis and Gady Agam and Shlomo Engelson Argamon and Ophir Frieder and David A. Grossman and Jefferson Heard},
  journal={Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval},
  year={2006}
}