D

Dit Large Finetuned Rvlcdip

microsoftによって開発
IIT-CDIPで事前学習し、RVL-CDIPでファインチューニングされた文書画像分類モデル、Transformerアーキテクチャを採用
ダウンロード数 67
リリース時間 : 3/7/2022

モデル概要

このモデルは大規模な文書画像コレクションで自己教師あり方式で事前学習されたTransformerエンコーダーで、主に文書画像分類などのタスクに使用されます

モデル特徴

大規模事前学習
IIT-CDIPデータセットの4200万枚の文書画像で事前学習
専門分野ファインチューニング
RVL-CDIP文書画像データセットでファインチューニング、16カテゴリを含む
Transformerアーキテクチャ
BEiTと同じTransformerエンコーダーアーキテクチャを採用
自己教師あり学習
マスク画像ブロック予測タスクを使用して事前学習

モデル能力

文書画像分類
文書特徴抽出
画像ブロックエンコーディング

使用事例

文書処理
文書分類
文書画像を16の事前定義カテゴリに分類
RVL-CDIPデータセットで良好なパフォーマンス
表検出
文書内の表領域を識別
文書レイアウト分析
文書のレイアウト構造を分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase