D

Donut Base Encoder

由 eljandoubi 开发
Donut是一种无需OCR的文档理解Transformer模型,通过视觉编码器直接处理文档图像
下载量 45
发布时间 : 4/2/2025

模型简介

Donut模型采用Swin Transformer作为视觉编码器,将文档图像编码为嵌入张量,适用于文档理解任务。该版本为仅预训练的基础模型,需在下游任务上微调使用。

模型特点

OCR-free处理
无需传统OCR步骤即可直接理解文档内容
视觉编码器
采用Swin Transformer架构处理图像输入
预训练基础
提供预训练权重,可针对不同文档任务进行微调

模型能力

文档图像特征提取
视觉表示学习
文档理解

使用案例

文档处理
文档图像分类
对不同类型的文档图像进行分类
文档解析
从文档图像中提取结构化信息
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase