D

Dit Base Finetuned Rvlcdip

由microsoft開發
DiT是一種基於Transformer的文檔圖像分類模型,在IIT-CDIP數據集上預訓練並在RVL-CDIP數據集上微調
下載量 31.99k
發布時間 : 3/7/2022

模型概述

該模型通過自監督學習在大量文檔圖像上進行預訓練,主要用於文檔圖像分類任務,能夠將文檔圖像編碼為向量表示

模型特點

自監督預訓練
使用掩碼圖像塊預測任務在大規模文檔圖像上進行預訓練
文檔圖像分類
專門針對文檔圖像優化的分類能力,支持16個文檔類別
Transformer架構
採用與BEiT相同的Transformer架構,適合處理圖像數據

模型能力

文檔圖像分類
文檔特徵提取
圖像編碼

使用案例

文檔管理
自動文檔分類
自動將掃描的文檔分類為廣告、科學出版物等16個類別
在RVL-CDIP數據集上表現良好
信息提取
文檔佈局分析
識別文檔中的不同區域和結構
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase