D

Dit Base Layout Detection

Developed by cmarkea
基於microsoft/dit-base微調的文檔圖像佈局檢測模型,可識別11類文檔元素
Downloads 704
Release Time : 7/18/2024

Model Overview

該模型可從文檔圖像中提取不同佈局元素(如文本、圖片、標題、腳註等),特別適合處理需要導入開放域問答系統(ODQA)的文檔集。

Model Features

多類別文檔元素識別
可識別11類文檔元素,包括圖片說明、腳註、公式、列表項、頁眉頁腳等
基於DocLayNet微調
在DocLayNet數據集上微調,專門針對文檔佈局分析任務優化
雙重評估指標
同時支持語義分割和目標檢測兩種評估方式,提供全面的性能評估

Model Capabilities

文檔圖像分析
佈局元素識別
語義分割
目標檢測

Use Cases

文檔處理
開放域問答系統文檔預處理
為ODQA系統準備文檔時自動識別和分類文檔中的不同元素
提高文檔結構化程度,增強問答系統理解能力
文檔數字化
將掃描文檔轉換為結構化數字格式時自動識別各區域類型
提升文檔數字化效率和準確性
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase