D

Donut Receipts Extract

Developed by AdamCodd
基於Donut架構的收據文本提取專用模型,通過視覺編碼器和文本解碼器實現無需OCR的文檔理解
Downloads 66
Release Time : 1/28/2024

Model Overview

該模型專門用於從收據圖像中提取結構化文本信息,採用Swin Transformer視覺編碼器和BART文本解碼器架構,支持端到端的收據信息識別與提取。

Model Features

無需OCR的文檔理解
直接處理圖像輸入,無需傳統OCR預處理步驟即可提取文本信息
雙分辨率處理
V2版本採用雙倍分辨率處理收據圖像,顯著提升識別精度
結構化輸出
自動生成JSON格式的結構化數據,包含收據關鍵字段(如金額、電話、折扣等)
改進的數據集
基於去重並人工校正的數據集訓練,相比V1版本性能顯著提升

Model Capabilities

收據圖像識別
文本信息提取
結構化數據生成
多字段聯合解析

Use Cases

零售與財務
電子收據歸檔
自動提取紙質收據的金額、日期等關鍵信息
準確率89.5%,字符錯誤率15.8%
費用報銷系統
識別員工提交的收據圖像並自動填充報銷表單
支持<s_total>、<s_date>等12個關鍵字段提取
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase