2025年最佳的 199 个文字识别工具

Table Transformer Structure Recognition
MIT
基于PubTables1M数据集训练的表格变换器模型,用于从非结构化文档中提取表格结构
文字识别 Transformers
T
microsoft
1.2M
186
Trocr Small Handwritten
TrOCR是一个基于Transformer的光学字符识别模型,专门用于手写文本图像的识别。
文字识别 Transformers
T
microsoft
517.96k
45
Table Transformer Structure Recognition V1.1 All
MIT
基于Transformer的表格结构识别模型,用于检测文档中的表格结构
文字识别 Transformers
T
microsoft
395.03k
70
Trocr Large Printed
基于Transformer的光学字符识别模型,适用于单行印刷体文本识别
文字识别 Transformers
T
microsoft
295.59k
162
Texify
Texify 是一个 OCR 工具,专门用于将公式图片和文本转换为 LaTeX 格式。
文字识别 Transformers
T
vikp
206.53k
15
Trocr Base Printed
TrOCR是基于Transformer的光学字符识别模型,专为单行文本图像识别设计,采用编码器-解码器架构
文字识别 Transformers
T
microsoft
184.84k
169
Manga Ocr Base
Apache-2.0
专为日语文本设计的光学字符识别工具,主要针对日本漫画场景优化。
文字识别 Transformers 日语
M
kha-white
130.36k
145
Trocr Large Handwritten
TrOCR是基于Transformer的光学字符识别模型,专为手写文本识别设计,在IAM数据集上进行了微调。
文字识别 Transformers
T
microsoft
59.17k
115
Trocr Small Printed
TrOCR是一个基于Transformer的光学字符识别模型,适用于单行文本图像的OCR任务。
文字识别 Transformers
T
microsoft
20.88k
40
Lilt Roberta En Base
MIT
语言无关版式变换器(LiLT)通过将预训练的RoBERTa(英文)与预训练的语言无关版式变换器(LiLT)拼接,为任何语言提供类似LayoutLM的模型。
文字识别 Transformers
L
SCUT-DLVCLab
12.05k
19
CRAFT
CRAFT 是一个多语言文本检测模型,主要用于检测图像中的文本区域,特别适用于波斯语文本检测,但也支持其他语言。
文字识别 支持多种语言
C
hezarai
11.22k
6
PP OCRv5 Server Det
Apache-2.0
PP-OCRv5_server_det 是 PaddleOCR 团队研发的最新一代文本检测模型,专为高性能应用场景设计,支持检测多种场景下的文本,包括手写、竖排、旋转和弯曲文本,可识别多种语言。
文字识别 支持多种语言
P
PaddlePaddle
8,722
2
PP OCRv5 Server Rec
Apache-2.0
PP-OCRv5_server_rec 是 PaddleOCR 团队开发的最新一代文本行识别模型,支持多语言和复杂文本场景的识别。
文字识别 支持多种语言
P
PaddlePaddle
8,601
0
Uvdoc
Apache-2.0
UVDoc主要用于对文本图像进行几何变换,以纠正图像中文档的扭曲、倾斜、透视变形等问题,从而提高后续文本识别的准确性。
文字识别 支持多种语言
U
PaddlePaddle
8,072
0
Trocr Base Handwritten Hist Swe 2
Apache-2.0
由瑞典国家档案馆等机构联合开发的历史手写体识别模型,专为1600-1900年间的瑞典手写文本设计。
文字识别 Transformers 其他
T
Riksarkivet
5,765
8
Pix2text Mfr
MIT
Pix2Text的数学公式识别(MFR)模型,基于TrOCR架构训练,能够将数学公式图像转换为LaTeX文本表示。
文字识别 Transformers
P
breezedeus
5,753
35
Mgp Str Base
MGP-STR是一个纯视觉场景文本识别模型,通过多粒度预测实现高效OCR。
文字识别 Transformers
M
alibaba-damo
4,981
64
Texteller
Apache-2.0
TexTeller是基于ViT架构的端到端公式识别模型,能够识别自然图像中的数学公式并将其转换为LaTeX格式公式。
文字识别 Transformers
T
OleehyO
3,806
31
Trocr Large Stage1
TrOCR是一种基于Transformer的预训练模型,用于光学字符识别(OCR)任务。
文字识别 Transformers
T
microsoft
3,700
25
Crnn Base Fa V2
Apache-2.0
一款针对波斯语的OCR模型,基于CNN+LSTM架构,专为印刷/扫描文档优化,支持数字及特殊字符识别。
文字识别 其他
C
hezarai
3,096
6
Qari OCR 0.1 VL 2B Instruct
Apache-2.0
基于Qwen2 VL模型微调的阿拉伯语OCR模型,专为整页阿拉伯文本识别优化
文字识别 Transformers 阿拉伯语
Q
NAMAA-Space
2,965
28
Crnn Fa Printed 96 Long
Apache-2.0
一款针对波斯语优化的OCR模型,基于CNN+LSTM架构,专为印刷体/扫描文档设计
文字识别 其他
C
hezarai
2,886
5
Thai Trocr
Apache-2.0
基于TrOCR基础手写体模型微调而成的泰语和英语光学字符识别模型,擅长处理手写文本行图像
文字识别 Transformers 支持多种语言
T
openthaigpt
2,677
9
Magi
漫画解读者是一个自动转录生成系统,能够自动识别漫画中的文本和图像元素,并生成相应的转录文本。
文字识别 Transformers 英语
M
ragavsachdeva
2,575
44
Layoutlmv3 Finetuned Funsd
基于LayoutLMv3-base模型在FUNSD数据集上微调的文档理解模型,擅长表单和文档的标记分类任务
文字识别 Transformers
L
nielsr
2,420
25
Ko Trocr
Apache-2.0
支持韩语初声识别的OCR模型,采用改进分词器解决传统TrOCR对韩语初声识别不足的问题
文字识别 Transformers 韩语
K
ddobokki
2,035
28
Table Transformer Structure Recognition V1.1 Pub
MIT
基于PubTables1M数据集训练的表格变换器模型,用于文档中的表格结构识别。
文字识别 Transformers
T
microsoft
1,634
4
Mlcd Vit Bigg Patch14 448
MIT
MLCD-ViT-bigG是一款采用二维旋转位置编码(RoPE2D)增强的先进视觉Transformer模型,在文档理解和视觉问答任务中表现卓越。
文字识别
M
DeepGlint-AI
1,517
3
Pix2text Mfd
MIT
Pix2Text的数学公式检测(MFD)模型,用于识别图片中的数学公式
文字识别 其他
P
breezedeus
1,369
3
Layoutlmv2 Finetuned Funsd
基于 Microsoft LayoutLMv2 模型在 FUNSD 数据集上微调的文档理解模型
文字识别 Transformers
L
nielsr
1,319
13
PP DocLayout Plus L
Apache-2.0
PP-DocLayout_plus-L 是一个高精度的文档布局区域定位模型,基于 RT-DETR-L 架构训练,支持 20 种常见文档元素的检测。
文字识别 支持多种语言
P
PaddlePaddle
1,308
0
RT DETR L Wireless Table Cell Det
Apache-2.0
RT-DETR-L_wireless_table_cell_det 是一个高精度的表格单元格检测模型,专为表格识别任务设计,能够准确定位和标记表格图像中的每个单元格区域。
文字识别 支持多种语言
R
PaddlePaddle
1,144
0
RT DETR L Wired Table Cell Det
Apache-2.0
RT-DETR-L_wired_table_cell_det 是表格识别任务中的关键模块,主要负责定位和标记表格图像中的每个单元格区域。
文字识别 支持多种语言
R
PaddlePaddle
1,144
0
Slanext Wired
Apache-2.0
SLANeXt_wired 是一个用于表格结构识别的深度学习模型,能够将不可编辑的表格图像转换为可编辑的表格格式(如 HTML)。
文字识别 支持多种语言
S
PaddlePaddle
1,141
0
Pix2text Table Rec
MIT
基于微软Table Transformer开发的表格结构识别模型,用于文档中的表格检测与识别任务
文字识别 Transformers
P
breezedeus
1,124
2
Slanet Plus
Apache-2.0
SLANet_plus是一款用于表格结构识别的模型,能够将不可编辑的表格图像转换为可编辑的表格格式(如HTML),在表格识别系统中发挥着重要作用,可有效提升表格识别的准确性和效率。
文字识别 支持多种语言
S
PaddlePaddle
1,121
0
Textnet Base
TextNet是一款专为文本检测设计的轻量高效架构,通过三个变体在检测精度与推理速度间实现卓越平衡。
文字识别 Transformers
T
czczup
1,061
3
PP DocBlockLayout
Apache-2.0
PP-DocBlockLayout 是一个基于 RT-DETR-L 训练的文档布局块定位模型,能够有效识别多种文档类型中的布局区域。
文字识别 支持多种语言
P
PaddlePaddle
1,039
0
Qari OCR V0.3 VL 2B Instruct
Apache-2.0
QARI-OCR v0.3 是一款专注于阿拉伯语结构化文档理解的光学字符识别视觉语言模型,基于 Qwen2-VL-2B-Instruct 构建,擅长保留文档布局和格式。
文字识别 Transformers 阿拉伯语
Q
NAMAA-Space
1,016
2
PP OCRv4 Server Seal Det
Apache-2.0
PP-OCRv4的服务器端印章文本检测模型,具有高准确性,适用于服务器部署,能有效解决印章文本检测难题。
文字识别 支持多种语言
P
PaddlePaddle
1,013
0
Trocr Base Ru
Apache-2.0
基于microsoft/trocr-base-handwritten微调的俄语和英语OCR模型,专注于手写和印刷体文本识别
文字识别 Transformers 支持多种语言
T
raxtemur
977
26
PP FormulaNet Plus L
Apache-2.0
PP-FormulaNet_plus-L 是 PaddleOCR 团队开发的增强版公式识别模型,支持中文公式识别,最大标记数提升至2560,适用于复杂公式场景。
文字识别 支持多种语言
P
PaddlePaddle
954
0
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase