D

Dit Large Finetuned Rvlcdip

由microsoft開發
基於IIT-CDIP預訓練並在RVL-CDIP上微調的文檔圖像分類模型,採用Transformer架構
下載量 67
發布時間 : 3/7/2022

模型概述

該模型是一種基於自監督方式在大規模文檔圖像集合上預訓練的Transformer編碼器,主要用於文檔圖像分類等任務

模型特點

大規模預訓練
基於IIT-CDIP數據集4200萬張文檔圖像預訓練
專業領域微調
在RVL-CDIP文檔圖像數據集上微調,包含16個類別
Transformer架構
採用與BEiT相同的Transformer編碼器架構
自監督學習
使用掩碼圖像塊預測任務進行預訓練

模型能力

文檔圖像分類
文檔特徵提取
圖像塊編碼

使用案例

文檔處理
文檔分類
將文檔圖像分類到16個預定義類別
在RVL-CDIP數據集上表現良好
表格檢測
識別文檔中的表格區域
文檔佈局分析
分析文檔的佈局結構
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase