D

Donut Base

Developed by naver-clova-ix
Donut是一種無需OCR的文檔理解Transformer模型,由視覺編碼器(Swin Transformer)和文本解碼器(BART)組成。
Downloads 50.34k
Release Time : 7/19/2022

Model Overview

該模型是Donut的純預訓練版本,需要在下游任務上進行微調才能使用。它能夠直接從圖像中理解文檔內容,無需傳統OCR步驟。

Model Features

無需OCR處理
直接處理圖像輸入,避免了傳統OCR流程中的誤差累積問題
端到端訓練
視覺編碼器和文本解碼器聯合訓練,實現端到端的文檔理解
靈活的下游應用
可通過微調適應多種文檔理解任務,如分類、解析等

Model Capabilities

圖像轉文本
文檔理解
視覺特徵提取
文本生成

Use Cases

文檔處理
文檔圖像分類
對掃描的文檔圖像進行分類
文檔解析
從文檔圖像中提取結構化信息
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase