🚀 ドキュメント画像トランスフォーマー (大型モデル)
Document Image Transformer (DiT) は、4200万枚のドキュメント画像を含むIIT - CDIP (Lewis et al., 2006) データセットで事前学習され、16クラスの40万枚のグレースケール画像(クラスごとに25,000枚)からなる RVL - CDIP データセットで微調整されたモデルです。このモデルは、Li et al.による論文 DiT: Self - supervised Pre - training for Document Image Transformer で紹介され、このリポジトリ で最初に公開されました。なお、DiTのアーキテクチャは BEiT と同じです。
免責事項: DiTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。
🚀 クイックスタート
Document Image Transformer (DiT) は、大量の画像コレクションを自己教師付き学習で事前学習したトランスフォーマーエンコーダモデル(BERTライク)です。このモデルは、文書画像をベクトル空間にエンコードするために使用でき、文書画像分類や表検出、文書レイアウト分析などのタスクに微調整することが主な用途です。
✨ 主な機能
- 自己教師付き学習による大量の画像データでの事前学習
- 文書画像をベクトル空間にエンコードする能力
- 文書画像分類、表検出、文書レイアウト分析などのタスクへの微調整が可能
📚 ドキュメント
モデルの説明
Document Image Transformer (DiT) は、自己教師付き方式で大量の画像コレクションを事前学習したトランスフォーマーエンコーダモデル(BERTライク)です。このモデルの事前学習の目的は、マスクされたパッチに基づいて、離散VAE (dVAE) のエンコーダから視覚トークンを予測することです。
画像は固定サイズのパッチ(解像度16x16)のシーケンスとしてモデルに入力され、線形に埋め込まれます。また、シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みが追加されます。
モデルを事前学習することで、画像の内部表現を学習し、下流のタスクに役立つ特徴を抽出することができます。たとえば、ラベル付きの文書画像のデータセットがある場合、事前学習されたエンコーダの上に線形層を配置して、標準的な分類器を学習することができます。
想定される用途と制限
生のモデルを使用して文書画像をベクトル空間にエンコードすることができますが、主に文書画像分類、表検出、文書レイアウト分析などのタスクに微調整することを想定しています。興味のあるタスクに関する微調整されたバージョンを探すには、モデルハブ を参照してください。
💻 使用例
基本的な使用法
from transformers import AutoImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image
image = Image.open('path_to_your_document_image').convert('RGB')
processor = AutoImageProcessor.from_pretrained("microsoft/dit-large-finetuned-rvlcdip")
model = AutoModelForImageClassification.from_pretrained("microsoft/dit-large-finetuned-rvlcdip")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
BibTeXエントリと引用情報
@article{Lewis2006BuildingAT,
title={Building a test collection for complex document information processing},
author={David D. Lewis and Gady Agam and Shlomo Engelson Argamon and Ophir Frieder and David A. Grossman and Jefferson Heard},
journal={Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval},
year={2006}
}