D

Donut Base

由naver-clova-ix開發
Donut是一種無需OCR的文檔理解Transformer模型,由視覺編碼器(Swin Transformer)和文本解碼器(BART)組成。
下載量 50.34k
發布時間 : 7/19/2022

模型概述

該模型是Donut的純預訓練版本,需要在下游任務上進行微調才能使用。它能夠直接從圖像中理解文檔內容,無需傳統OCR步驟。

模型特點

無需OCR處理
直接處理圖像輸入,避免了傳統OCR流程中的誤差累積問題
端到端訓練
視覺編碼器和文本解碼器聯合訓練,實現端到端的文檔理解
靈活的下游應用
可通過微調適應多種文檔理解任務,如分類、解析等

模型能力

圖像轉文本
文檔理解
視覺特徵提取
文本生成

使用案例

文檔處理
文檔圖像分類
對掃描的文檔圖像進行分類
文檔解析
從文檔圖像中提取結構化信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase