D

Dit Base Finetuned Rvlcdip

microsoftによって開発
DiTはTransformerベースの文書画像分類モデルで、IIT-CDIPデータセットで事前学習され、RVL-CDIPデータセットでファインチューニングされています
ダウンロード数 31.99k
リリース時間 : 3/7/2022

モデル概要

このモデルは自己教師あり学習により大量の文書画像で事前学習されており、主に文書画像分類タスクに使用され、文書画像をベクトル表現にエンコードできます

モデル特徴

自己教師あり事前学習
マスク画像ブロック予測タスクを使用して大規模な文書画像で事前学習を行います
文書画像分類
文書画像に最適化された分類能力で、16の文書カテゴリをサポートします
Transformerアーキテクチャ
BEiTと同じTransformerアーキテクチャを採用しており、画像データの処理に適しています

モデル能力

文書画像分類
文書特徴抽出
画像エンコーディング

使用事例

文書管理
自動文書分類
スキャンした文書を広告、科学出版物などの16カテゴリに自動分類します
RVL-CDIPデータセットで良好な性能を発揮します
情報抽出
文書レイアウト分析
文書内の異なる領域や構造を識別します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase