donut-base-encoder開源文檔理解模型 - 無需OCR，直接處理文檔圖像

Home

Donut Base Encoder

Developed by eljandoubi

Donut是一種無需OCR的文檔理解Transformer模型，通過視覺編碼器直接處理文檔圖像

文字識別

Transformers

Open Source License:MIT #OCR-free文檔理解 #Swin Transformer編碼器 #文檔圖像特徵提取

Downloads 45

Release Time : 4/2/2025

Model Overview

Donut模型採用Swin Transformer作為視覺編碼器，將文檔圖像編碼為嵌入張量，適用於文檔理解任務。該版本為僅預訓練的基礎模型，需在下游任務上微調使用。

Model Features

OCR-free處理

無需傳統OCR步驟即可直接理解文檔內容

視覺編碼器

採用Swin Transformer架構處理圖像輸入

預訓練基礎

提供預訓練權重，可針對不同文檔任務進行微調

Model Capabilities

文檔圖像特徵提取

視覺表示學習

文檔理解

Use Cases

文檔處理

文檔圖像分類

對不同類型的文檔圖像進行分類

文檔解析

從文檔圖像中提取結構化信息

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Donut Base Encoder

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 Donut（基礎尺寸模型，僅預訓練）

🚀 快速開始

✨ 主要特性

📚 詳細文檔

BibTeX引用及引用信息

📄 許可證