文字识别

2025年最佳的 199 个文字识别工具

Table Transformer Structure Recognition

基于PubTables1M数据集训练的表格变换器模型，用于从非结构化文档中提取表格结构

Trocr Small Handwritten

TrOCR是一个基于Transformer的光学字符识别模型，专门用于手写文本图像的识别。

Table Transformer Structure Recognition V1.1 All

基于Transformer的表格结构识别模型，用于检测文档中的表格结构

Trocr Large Printed

基于Transformer的光学字符识别模型，适用于单行印刷体文本识别

Texify 是一个 OCR 工具，专门用于将公式图片和文本转换为 LaTeX 格式。

Trocr Base Printed

TrOCR是基于Transformer的光学字符识别模型，专为单行文本图像识别设计，采用编码器-解码器架构

专为日语文本设计的光学字符识别工具，主要针对日本漫画场景优化。

Transformers 日语

Trocr Large Handwritten

TrOCR是基于Transformer的光学字符识别模型，专为手写文本识别设计，在IAM数据集上进行了微调。

Trocr Small Printed

TrOCR是一个基于Transformer的光学字符识别模型，适用于单行文本图像的OCR任务。

Lilt Roberta En Base

语言无关版式变换器（LiLT）通过将预训练的RoBERTa（英文）与预训练的语言无关版式变换器（LiLT）拼接，为任何语言提供类似LayoutLM的模型。

CRAFT 是一个多语言文本检测模型，主要用于检测图像中的文本区域，特别适用于波斯语文本检测，但也支持其他语言。

文字识别支持多种语言

PP OCRv5 Server Det

PP-OCRv5_server_det 是 PaddleOCR 团队研发的最新一代文本检测模型，专为高性能应用场景设计，支持检测多种场景下的文本，包括手写、竖排、旋转和弯曲文本，可识别多种语言。

文字识别支持多种语言

PP OCRv5 Server Rec

PP-OCRv5_server_rec 是 PaddleOCR 团队开发的最新一代文本行识别模型，支持多语言和复杂文本场景的识别。

文字识别支持多种语言

UVDoc主要用于对文本图像进行几何变换，以纠正图像中文档的扭曲、倾斜、透视变形等问题，从而提高后续文本识别的准确性。

文字识别支持多种语言

Trocr Base Handwritten Hist Swe 2

由瑞典国家档案馆等机构联合开发的历史手写体识别模型，专为1600-1900年间的瑞典手写文本设计。

Transformers 其他

Pix2Text的数学公式识别(MFR)模型，基于TrOCR架构训练，能够将数学公式图像转换为LaTeX文本表示。

MGP-STR是一个纯视觉场景文本识别模型，通过多粒度预测实现高效OCR。

TexTeller是基于ViT架构的端到端公式识别模型，能够识别自然图像中的数学公式并将其转换为LaTeX格式公式。

Trocr Large Stage1

TrOCR是一种基于Transformer的预训练模型，用于光学字符识别（OCR）任务。

Crnn Base Fa V2

一款针对波斯语的OCR模型，基于CNN+LSTM架构，专为印刷/扫描文档优化，支持数字及特殊字符识别。

文字识别其他

Qari OCR 0.1 VL 2B Instruct

基于Qwen2 VL模型微调的阿拉伯语OCR模型，专为整页阿拉伯文本识别优化

Transformers 阿拉伯语

Crnn Fa Printed 96 Long

一款针对波斯语优化的OCR模型，基于CNN+LSTM架构，专为印刷体/扫描文档设计

文字识别其他

基于TrOCR基础手写体模型微调而成的泰语和英语光学字符识别模型，擅长处理手写文本行图像

Transformers 支持多种语言

漫画解读者是一个自动转录生成系统，能够自动识别漫画中的文本和图像元素，并生成相应的转录文本。

Transformers 英语

Layoutlmv3 Finetuned Funsd

基于LayoutLMv3-base模型在FUNSD数据集上微调的文档理解模型，擅长表单和文档的标记分类任务

支持韩语初声识别的OCR模型，采用改进分词器解决传统TrOCR对韩语初声识别不足的问题

Transformers 韩语

Table Transformer Structure Recognition V1.1 Pub

基于PubTables1M数据集训练的表格变换器模型，用于文档中的表格结构识别。

Mlcd Vit Bigg Patch14 448

MLCD-ViT-bigG是一款采用二维旋转位置编码(RoPE2D)增强的先进视觉Transformer模型，在文档理解和视觉问答任务中表现卓越。

Pix2Text的数学公式检测(MFD)模型，用于识别图片中的数学公式

文字识别其他

Layoutlmv2 Finetuned Funsd

基于 Microsoft LayoutLMv2 模型在 FUNSD 数据集上微调的文档理解模型

PP DocLayout Plus L

PP-DocLayout_plus-L 是一个高精度的文档布局区域定位模型，基于 RT-DETR-L 架构训练，支持 20 种常见文档元素的检测。

文字识别支持多种语言

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_det 是一个高精度的表格单元格检测模型，专为表格识别任务设计，能够准确定位和标记表格图像中的每个单元格区域。

文字识别支持多种语言

RT DETR L Wired Table Cell Det

RT-DETR-L_wired_table_cell_det 是表格识别任务中的关键模块，主要负责定位和标记表格图像中的每个单元格区域。

文字识别支持多种语言

SLANeXt_wired 是一个用于表格结构识别的深度学习模型，能够将不可编辑的表格图像转换为可编辑的表格格式（如 HTML）。

文字识别支持多种语言

Pix2text Table Rec

基于微软Table Transformer开发的表格结构识别模型，用于文档中的表格检测与识别任务

SLANet_plus是一款用于表格结构识别的模型，能够将不可编辑的表格图像转换为可编辑的表格格式（如HTML），在表格识别系统中发挥着重要作用，可有效提升表格识别的准确性和效率。

文字识别支持多种语言

TextNet是一款专为文本检测设计的轻量高效架构，通过三个变体在检测精度与推理速度间实现卓越平衡。

PP DocBlockLayout

PP-DocBlockLayout 是一个基于 RT-DETR-L 训练的文档布局块定位模型，能够有效识别多种文档类型中的布局区域。

文字识别支持多种语言

Qari OCR V0.3 VL 2B Instruct

QARI-OCR v0.3 是一款专注于阿拉伯语结构化文档理解的光学字符识别视觉语言模型，基于 Qwen2-VL-2B-Instruct 构建，擅长保留文档布局和格式。

Transformers 阿拉伯语

PP OCRv4 Server Seal Det

PP-OCRv4的服务器端印章文本检测模型，具有高准确性，适用于服务器部署，能有效解决印章文本检测难题。

文字识别支持多种语言

基于microsoft/trocr-base-handwritten微调的俄语和英语OCR模型，专注于手写和印刷体文本识别

Transformers 支持多种语言

PP FormulaNet Plus L

PP-FormulaNet_plus-L 是 PaddleOCR 团队开发的增强版公式识别模型，支持中文公式识别，最大标记数提升至2560，适用于复杂公式场景。

文字识别支持多种语言

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase