D

Donut Receipts Extract

由AdamCodd開發
基於Donut架構的收據文本提取專用模型,通過視覺編碼器和文本解碼器實現無需OCR的文檔理解
下載量 66
發布時間 : 1/28/2024

模型概述

該模型專門用於從收據圖像中提取結構化文本信息,採用Swin Transformer視覺編碼器和BART文本解碼器架構,支持端到端的收據信息識別與提取。

模型特點

無需OCR的文檔理解
直接處理圖像輸入,無需傳統OCR預處理步驟即可提取文本信息
雙分辨率處理
V2版本採用雙倍分辨率處理收據圖像,顯著提升識別精度
結構化輸出
自動生成JSON格式的結構化數據,包含收據關鍵字段(如金額、電話、折扣等)
改進的數據集
基於去重並人工校正的數據集訓練,相比V1版本性能顯著提升

模型能力

收據圖像識別
文本信息提取
結構化數據生成
多字段聯合解析

使用案例

零售與財務
電子收據歸檔
自動提取紙質收據的金額、日期等關鍵信息
準確率89.5%,字符錯誤率15.8%
費用報銷系統
識別員工提交的收據圖像並自動填充報銷表單
支持<s_total>、<s_date>等12個關鍵字段提取
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase