D

Dit Base Layout Detection

由cmarkea開發
基於microsoft/dit-base微調的文檔圖像佈局檢測模型,可識別11類文檔元素
下載量 704
發布時間 : 7/18/2024

模型概述

該模型可從文檔圖像中提取不同佈局元素(如文本、圖片、標題、腳註等),特別適合處理需要導入開放域問答系統(ODQA)的文檔集。

模型特點

多類別文檔元素識別
可識別11類文檔元素,包括圖片說明、腳註、公式、列表項、頁眉頁腳等
基於DocLayNet微調
在DocLayNet數據集上微調,專門針對文檔佈局分析任務優化
雙重評估指標
同時支持語義分割和目標檢測兩種評估方式,提供全面的性能評估

模型能力

文檔圖像分析
佈局元素識別
語義分割
目標檢測

使用案例

文檔處理
開放域問答系統文檔預處理
為ODQA系統準備文檔時自動識別和分類文檔中的不同元素
提高文檔結構化程度,增強問答系統理解能力
文檔數字化
將掃描文檔轉換為結構化數字格式時自動識別各區域類型
提升文檔數字化效率和準確性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase