# 文档图像处理

PP OCRv4 Server Rec
Apache-2.0
PP-OCRv4_server_rec 是 PaddleOCR 团队开发的 PP-OCRv4_rec 系列中的一个文本行识别模型,支持一般中文和英文场景下的文本行识别,主要侧重于中文。
文字识别 支持多种语言
P
PaddlePaddle
225
0
Slanet Plus
Apache-2.0
SLANet_plus是一款用于表格结构识别的模型,能够将不可编辑的表格图像转换为可编辑的表格格式(如HTML),在表格识别系统中发挥着重要作用,可有效提升表格识别的准确性和效率。
文字识别 支持多种语言
S
PaddlePaddle
1,121
0
Table Transformer Page Segmentation Floorplan
这是一个基于Transformer架构的图像分割模型,专门用于处理页面布局和平面图的分割任务。
图像分割 Transformers
T
digscom
22
0
Monkey Chat
猴模型是一种大型多模态模型,通过提升图像分辨率和改进文本标签方法,在多项视觉任务中表现优异。
图像生成文本 Transformers
M
echo840
179
16
Monkey
猴子模型是一种高效的大型多模态模型,通过提升图像分辨率和改进文本标签方法,在多个视觉任务中表现优异。
图像生成文本 Transformers
M
echo840
308
31
Dof Passport 1
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
图像生成文本 Transformers
D
Sebabrata
16
0
Dof Receipts 1
MIT
基于naver-clova-ix/donut-base微调的模型,用于处理图像数据
文字识别 Transformers
D
Sebabrata
31
0
Donut Proto
MIT
Donut是一种无需OCR的文档理解Transformer模型,结合视觉编码器和文本解码器处理图像到文本的转换
图像生成文本 Transformers
D
naver-clova-ix
30
7
Donut Base
MIT
Donut是一种无需OCR的文档理解Transformer模型,由视觉编码器(Swin Transformer)和文本解码器(BART)组成。
图像生成文本 Transformers
D
naver-clova-ix
50.34k
207
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase