🚀 UDOPモデル
UDOPモデルは、Zineng Tang、Ziyi Yang、Guoxin Wang、Yuwei Fang、Yang Liu、Chenguang Zhu、Michael Zeng、Cha Zhang、Mohit BansalによるUnifying Vision, Text, and Layout for Universal Document Processingで提案されました。このモデルは、文書画像分類、文書解析、文書視覚的質問応答などの文書AIタスクに利用できます。
🚀 クイックスタート
UDOPモデルは、文書AIタスクに特化したモデルです。T5ベースのエンコーダ・デコーダTransformerアーキテクチャを採用しており、文書画像分類、文書解析、文書視覚的質問応答などのタスクに使用できます。
✨ 主な機能
- UDOPは、T5ベースのエンコーダ・デコーダTransformerアーキテクチャを採用しています。
- 文書画像分類、文書解析、文書視覚的質問応答などの文書AIタスクに使用できます。
📦 インストール
この文書には具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
from transformers import AutoProcessor, UdopForConditionalGeneration
from datasets import load_dataset
processor = AutoProcessor.from_pretrained("microsoft/udop-large", apply_ocr=False)
model = UdopForConditionalGeneration.from_pretrained("microsoft/udop-large")
dataset = load_dataset("nielsr/funsd-layoutlmv3", split="train")
example = dataset[0]
image = example["image"]
words = example["tokens"]
boxes = example["bboxes"]
question = "Question answering. What is the date on the form?"
encoding = processor(image, question, words, boxes=boxes, return_tensors="pt")
predicted_ids = model.generate(**encoding)
print(processor.batch_decode(predicted_ids, skip_special_tokens=True)[0])
9/30/92
高度な使用法
微調整や推論については、デモノートブックを参照してください。
📚 ドキュメント
モデルの説明
UDOPは、文書AIタスク用にT5ベースのエンコーダ・デコーダTransformerアーキテクチャを採用しています。文書画像分類、文書解析、文書視覚的質問応答などのタスクに使用できます。
想定される用途と制限
このモデルは、文書画像分類、文書解析、文書視覚的質問応答(DocVQA)に使用できます。
🔧 技術詳細
UDOPは、T5ベースのエンコーダ・デコーダTransformerアーキテクチャを使用して、文書AIタスクを処理します。このアーキテクチャは、文書画像分類、文書解析、文書視覚的質問応答などのタスクに適しています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
BibTeXエントリと引用情報
@misc{tang2023unifying,
title={Unifying Vision, Text, and Layout for Universal Document Processing},
author={Zineng Tang and Ziyi Yang and Guoxin Wang and Yuwei Fang and Yang Liu and Chenguang Zhu and Michael Zeng and Cha Zhang and Mohit Bansal},
year={2023},
eprint={2212.02623},
archivePrefix={arXiv},
primaryClass={cs.CV}
}