🚀 ドキュメント画像トランスフォーマー (ベースサイズのモデル)
Document Image Transformer (DiT) は、4200万枚のドキュメント画像を含むIIT - CDIP (Lewis et al., 2006) データセットで事前学習され、16クラスの40万枚のグレースケール画像(クラスごとに25000枚)からなる RVL - CDIP データセットでファインチューニングされたモデルです。このモデルは、Li et al.による論文 DiT: Self - supervised Pre - training for Document Image Transformer で紹介され、このリポジトリ で最初に公開されました。なお、DiTのアーキテクチャは BEiT と同じです。
免責事項: DiTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。
🚀 クイックスタート
このセクションでは、DiTモデルの概要と使用方法について説明します。
✨ 主な機能
モデル概要
Document Image Transformer (DiT) は、自己教師付き学習によって大量の画像データで事前学習されたトランスフォーマーエンコーダモデル(BERTライク)です。モデルの事前学習の目的は、マスクされたパッチに基づいて、離散VAE(dVAE)のエンコーダから視覚トークンを予測することです。
画像は固定サイズのパッチ(解像度16x16)のシーケンスとしてモデルに入力され、線形埋め込みが行われます。また、シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加されます。
事前学習によって、モデルは画像の内部表現を学習し、下流のタスクに有用な特徴を抽出するために利用できます。例えば、ラベル付きのドキュメント画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して、標準的な分類器を学習させることができます。
想定用途と制限
生のモデルを使用して、ドキュメント画像をベクトル空間にエンコードすることもできますが、主にドキュメント画像分類、表検出、ドキュメントレイアウト分析などのタスクでファインチューニングすることを想定しています。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブ を参照してください。
💻 使用例
基本的な使用法
from transformers import AutoImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image
image = Image.open('path_to_your_document_image').convert('RGB')
processor = AutoImageProcessor.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
model = AutoModelForImageClassification.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
📚 ドキュメント
BibTeXエントリと引用情報
@article{Lewis2006BuildingAT,
title={Building a test collection for complex document information processing},
author={David D. Lewis and Gady Agam and Shlomo Engelson Argamon and Ophir Frieder and David A. Grossman and Jefferson Heard},
journal={Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval},
year={2006}
}
情報テーブル
属性 |
详情 |
タグ |
dit、vision、image - classification |
データセット |
rvl_cdip |
ウィジェット |
- src: https://huggingface.co/microsoft/dit-base-finetuned-rvlcdip/resolve/main/coca_cola_advertisement.png, example_title: Advertisement
- src: https://huggingface.co/microsoft/dit-base-finetuned-rvlcdip/resolve/main/scientific_publication.png, example_title: Scientific publication
|