D

Donut Base Finetuned Cord V1 2560

由naver-clova-ix開發
Donut是一種無需OCR的文檔理解Transformer模型,結合視覺編碼器和文本解碼器實現圖像到文本的轉換。
下載量 30
發布時間 : 7/19/2022

模型概述

Donut模型通過Swin Transformer編碼圖像,BART解碼器生成文本,專為文檔解析任務設計,特別在CORD數據集上進行了微調。

模型特點

無需OCR的文檔理解
直接處理圖像輸入,無需傳統OCR預處理步驟
端到端訓練
視覺編碼器和文本解碼器聯合訓練,實現圖像到文本的直接轉換
高效架構
結合Swin Transformer的高效圖像編碼和BART的強大文本生成能力

模型能力

文檔圖像理解
圖像到文本轉換
結構化信息提取

使用案例

文檔處理
收據解析
從收據圖像中提取結構化信息如商家名稱、金額、日期等
在CORD數據集上表現優異
表單識別
自動識別和提取表單中的字段和內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase