D

Donut Base Finetuned Docvqa

由naver-clova-ix開發
Donut是一種無需OCR的文檔理解Transformer模型,基於DocVQA數據集微調,能夠直接從圖像中提取和理解文本信息。
下載量 167.80k
發布時間 : 7/19/2022

模型概述

該模型由視覺編碼器(Swin Transformer)和文本解碼器(BART)組成,能夠直接從文檔圖像中生成文本回答,無需傳統OCR預處理步驟。

模型特點

無需OCR處理
直接處理文檔圖像,避免了傳統OCR流程中的錯誤累積問題
端到端訓練
視覺編碼器和文本解碼器聯合訓練,實現圖像到文本的直接轉換
文檔理解能力
專門針對文檔圖像優化,能夠理解發票、合同等結構化文檔內容

模型能力

文檔圖像理解
視覺問答
文本信息提取
圖像轉文本

使用案例

文檔處理
發票信息提取
從發票圖像中提取號碼、金額等關鍵信息
可準確識別結構化文檔中的特定字段
合同條款查詢
回答關於合同文檔內容的特定問題
能夠理解合同文檔中的關鍵條款內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase