文字識別

2025年最佳 199 款文字識別工具

Table Transformer Structure Recognition

基於PubTables1M數據集訓練的表格變換器模型，用於從非結構化文檔中提取表格結構

Trocr Small Handwritten

TrOCR是一個基於Transformer的光學字符識別模型，專門用於手寫文本圖像的識別。

Table Transformer Structure Recognition V1.1 All

基於Transformer的表格結構識別模型，用於檢測文檔中的表格結構

Trocr Large Printed

基於Transformer的光學字符識別模型，適用於單行印刷體文本識別

Texify 是一個 OCR 工具，專門用於將公式圖片和文本轉換為 LaTeX 格式。

Trocr Base Printed

TrOCR是基於Transformer的光學字符識別模型，專為單行文本圖像識別設計，採用編碼器-解碼器架構

專為日語文本設計的光學字符識別工具，主要針對日本漫畫場景優化。

Transformers 日語

Trocr Large Handwritten

TrOCR是基於Transformer的光學字符識別模型，專為手寫文本識別設計，在IAM數據集上進行了微調。

Trocr Small Printed

TrOCR是一個基於Transformer的光學字符識別模型，適用於單行文本圖像的OCR任務。

Lilt Roberta En Base

語言無關版式變換器（LiLT）通過將預訓練的RoBERTa（英文）與預訓練的語言無關版式變換器（LiLT）拼接，為任何語言提供類似LayoutLM的模型。

CRAFT 是一個多語言文本檢測模型，主要用於檢測圖像中的文本區域，特別適用於波斯語文本檢測，但也支持其他語言。

文字識別支持多種語言

PP OCRv5 Server Det

PP-OCRv5_server_det 是 PaddleOCR 團隊研發的最新一代文本檢測模型，專為高性能應用場景設計，支持檢測多種場景下的文本，包括手寫、豎排、旋轉和彎曲文本，可識別多種語言。

文字識別支持多種語言

PP OCRv5 Server Rec

PP-OCRv5_server_rec 是 PaddleOCR 團隊開發的最新一代文本行識別模型，支持多語言和複雜文本場景的識別。

文字識別支持多種語言

UVDoc主要用於對文本圖像進行幾何變換，以糾正圖像中文檔的扭曲、傾斜、透視變形等問題，從而提高後續文本識別的準確性。

文字識別支持多種語言

Trocr Base Handwritten Hist Swe 2

由瑞典國家檔案館等機構聯合開發的歷史手寫體識別模型，專為1600-1900年間的瑞典手寫文本設計。

Transformers 其他

Pix2Text的數學公式識別(MFR)模型，基於TrOCR架構訓練，能夠將數學公式圖像轉換為LaTeX文本表示。

MGP-STR是一個純視覺場景文本識別模型，通過多粒度預測實現高效OCR。

TexTeller是基於ViT架構的端到端公式識別模型，能夠識別自然圖像中的數學公式並將其轉換為LaTeX格式公式。

Trocr Large Stage1

TrOCR是一種基於Transformer的預訓練模型，用於光學字符識別（OCR）任務。

Crnn Base Fa V2

一款針對波斯語的OCR模型，基於CNN+LSTM架構，專為印刷/掃描文檔優化，支持數字及特殊字符識別。

文字識別其他

Qari OCR 0.1 VL 2B Instruct

基於Qwen2 VL模型微調的阿拉伯語OCR模型，專為整頁阿拉伯文本識別優化

Transformers 阿拉伯語

Crnn Fa Printed 96 Long

一款針對波斯語優化的OCR模型，基於CNN+LSTM架構，專為印刷體/掃描文檔設計

文字識別其他

基於TrOCR基礎手寫體模型微調而成的泰語和英語光學字符識別模型，擅長處理手寫文本行圖像

Transformers 支持多種語言

漫畫解讀者是一個自動轉錄生成系統，能夠自動識別漫畫中的文本和圖像元素，並生成相應的轉錄文本。

Transformers 英語

Layoutlmv3 Finetuned Funsd

基於LayoutLMv3-base模型在FUNSD數據集上微調的文檔理解模型，擅長表單和文檔的標記分類任務

支持韓語初聲識別的OCR模型，採用改進分詞器解決傳統TrOCR對韓語初聲識別不足的問題

Transformers 韓語

Table Transformer Structure Recognition V1.1 Pub

基於PubTables1M數據集訓練的表格變換器模型，用於文檔中的表格結構識別。

Mlcd Vit Bigg Patch14 448

MLCD-ViT-bigG是一款採用二維旋轉位置編碼(RoPE2D)增強的先進視覺Transformer模型，在文檔理解和視覺問答任務中表現卓越。

Pix2Text的數學公式檢測(MFD)模型，用於識別圖片中的數學公式

文字識別其他

Layoutlmv2 Finetuned Funsd

基於 Microsoft LayoutLMv2 模型在 FUNSD 數據集上微調的文檔理解模型

PP DocLayout Plus L

PP-DocLayout_plus-L 是一個高精度的文檔佈局區域定位模型，基於 RT-DETR-L 架構訓練，支持 20 種常見文檔元素的檢測。

文字識別支持多種語言

RT DETR L Wired Table Cell Det

RT-DETR-L_wired_table_cell_det 是表格識別任務中的關鍵模塊，主要負責定位和標記表格圖像中的每個單元格區域。

文字識別支持多種語言

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_det 是一個高精度的表格單元格檢測模型，專為表格識別任務設計，能夠準確定位和標記表格圖像中的每個單元格區域。

文字識別支持多種語言

SLANeXt_wired 是一個用於表格結構識別的深度學習模型，能夠將不可編輯的表格圖像轉換為可編輯的表格格式（如 HTML）。

文字識別支持多種語言

Pix2text Table Rec

基於微軟Table Transformer開發的表格結構識別模型，用於文檔中的表格檢測與識別任務

SLANet_plus是一款用於表格結構識別的模型，能夠將不可編輯的表格圖像轉換為可編輯的表格格式（如HTML），在表格識別系統中發揮著重要作用，可有效提升表格識別的準確性和效率。

文字識別支持多種語言

TextNet是一款專為文本檢測設計的輕量高效架構，通過三個變體在檢測精度與推理速度間實現卓越平衡。

PP DocBlockLayout

PP-DocBlockLayout 是一個基於 RT-DETR-L 訓練的文檔佈局塊定位模型，能夠有效識別多種文檔類型中的佈局區域。

文字識別支持多種語言

Qari OCR V0.3 VL 2B Instruct

QARI-OCR v0.3 是一款專注於阿拉伯語結構化文檔理解的光學字符識別視覺語言模型，基於 Qwen2-VL-2B-Instruct 構建，擅長保留文檔佈局和格式。

Transformers 阿拉伯語

PP OCRv4 Server Seal Det

PP-OCRv4的服務器端印章文本檢測模型，具有高準確性，適用於服務器部署，能有效解決印章文本檢測難題。

文字識別支持多種語言

基於microsoft/trocr-base-handwritten微調的俄語和英語OCR模型，專注於手寫和印刷體文本識別

Transformers 支持多種語言

PP FormulaNet Plus L

PP-FormulaNet_plus-L 是 PaddleOCR 團隊開發的增強版公式識別模型，支持中文公式識別，最大標記數提升至2560，適用於複雜公式場景。

文字識別支持多種語言

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase