Table Transformer Structure Recognition
MIT
基於PubTables1M數據集訓練的表格變換器模型,用於從非結構化文檔中提取表格結構
文字識別
Transformers

T
microsoft
1.2M
186
Trocr Small Handwritten
TrOCR是一個基於Transformer的光學字符識別模型,專門用於手寫文本圖像的識別。
文字識別
Transformers

T
microsoft
517.96k
45
Table Transformer Structure Recognition V1.1 All
MIT
基於Transformer的表格結構識別模型,用於檢測文檔中的表格結構
文字識別
Transformers

T
microsoft
395.03k
70
Trocr Large Printed
基於Transformer的光學字符識別模型,適用於單行印刷體文本識別
文字識別
Transformers

T
microsoft
295.59k
162
Texify
Texify 是一個 OCR 工具,專門用於將公式圖片和文本轉換為 LaTeX 格式。
文字識別
Transformers

T
vikp
206.53k
15
Trocr Base Printed
TrOCR是基於Transformer的光學字符識別模型,專為單行文本圖像識別設計,採用編碼器-解碼器架構
文字識別
Transformers

T
microsoft
184.84k
169
Manga Ocr Base
Apache-2.0
專為日語文本設計的光學字符識別工具,主要針對日本漫畫場景優化。
文字識別
Transformers 日語

M
kha-white
130.36k
145
Trocr Large Handwritten
TrOCR是基於Transformer的光學字符識別模型,專為手寫文本識別設計,在IAM數據集上進行了微調。
文字識別
Transformers

T
microsoft
59.17k
115
Trocr Small Printed
TrOCR是一個基於Transformer的光學字符識別模型,適用於單行文本圖像的OCR任務。
文字識別
Transformers

T
microsoft
20.88k
40
Lilt Roberta En Base
MIT
語言無關版式變換器(LiLT)通過將預訓練的RoBERTa(英文)與預訓練的語言無關版式變換器(LiLT)拼接,為任何語言提供類似LayoutLM的模型。
文字識別
Transformers

L
SCUT-DLVCLab
12.05k
19
CRAFT
CRAFT 是一個多語言文本檢測模型,主要用於檢測圖像中的文本區域,特別適用於波斯語文本檢測,但也支持其他語言。
文字識別 支持多種語言
C
hezarai
11.22k
6
PP OCRv5 Server Det
Apache-2.0
PP-OCRv5_server_det 是 PaddleOCR 團隊研發的最新一代文本檢測模型,專為高性能應用場景設計,支持檢測多種場景下的文本,包括手寫、豎排、旋轉和彎曲文本,可識別多種語言。
文字識別 支持多種語言
P
PaddlePaddle
8,722
2
PP OCRv5 Server Rec
Apache-2.0
PP-OCRv5_server_rec 是 PaddleOCR 團隊開發的最新一代文本行識別模型,支持多語言和複雜文本場景的識別。
文字識別 支持多種語言
P
PaddlePaddle
8,601
0
Uvdoc
Apache-2.0
UVDoc主要用於對文本圖像進行幾何變換,以糾正圖像中文檔的扭曲、傾斜、透視變形等問題,從而提高後續文本識別的準確性。
文字識別 支持多種語言
U
PaddlePaddle
8,072
0
Trocr Base Handwritten Hist Swe 2
Apache-2.0
由瑞典國家檔案館等機構聯合開發的歷史手寫體識別模型,專為1600-1900年間的瑞典手寫文本設計。
文字識別
Transformers 其他

T
Riksarkivet
5,765
8
Pix2text Mfr
MIT
Pix2Text的數學公式識別(MFR)模型,基於TrOCR架構訓練,能夠將數學公式圖像轉換為LaTeX文本表示。
文字識別
Transformers

P
breezedeus
5,753
35
Mgp Str Base
MGP-STR是一個純視覺場景文本識別模型,通過多粒度預測實現高效OCR。
文字識別
Transformers

M
alibaba-damo
4,981
64
Texteller
Apache-2.0
TexTeller是基於ViT架構的端到端公式識別模型,能夠識別自然圖像中的數學公式並將其轉換為LaTeX格式公式。
文字識別
Transformers

T
OleehyO
3,806
31
Trocr Large Stage1
TrOCR是一種基於Transformer的預訓練模型,用於光學字符識別(OCR)任務。
文字識別
Transformers

T
microsoft
3,700
25
Crnn Base Fa V2
Apache-2.0
一款針對波斯語的OCR模型,基於CNN+LSTM架構,專為印刷/掃描文檔優化,支持數字及特殊字符識別。
文字識別 其他
C
hezarai
3,096
6
Qari OCR 0.1 VL 2B Instruct
Apache-2.0
基於Qwen2 VL模型微調的阿拉伯語OCR模型,專為整頁阿拉伯文本識別優化
文字識別
Transformers 阿拉伯語

Q
NAMAA-Space
2,965
28
Crnn Fa Printed 96 Long
Apache-2.0
一款針對波斯語優化的OCR模型,基於CNN+LSTM架構,專為印刷體/掃描文檔設計
文字識別 其他
C
hezarai
2,886
5
Thai Trocr
Apache-2.0
基於TrOCR基礎手寫體模型微調而成的泰語和英語光學字符識別模型,擅長處理手寫文本行圖像
文字識別
Transformers 支持多種語言

T
openthaigpt
2,677
9
Magi
漫畫解讀者是一個自動轉錄生成系統,能夠自動識別漫畫中的文本和圖像元素,並生成相應的轉錄文本。
文字識別
Transformers 英語

M
ragavsachdeva
2,575
44
Layoutlmv3 Finetuned Funsd
基於LayoutLMv3-base模型在FUNSD數據集上微調的文檔理解模型,擅長表單和文檔的標記分類任務
文字識別
Transformers

L
nielsr
2,420
25
Ko Trocr
Apache-2.0
支持韓語初聲識別的OCR模型,採用改進分詞器解決傳統TrOCR對韓語初聲識別不足的問題
文字識別
Transformers 韓語

K
ddobokki
2,035
28
Table Transformer Structure Recognition V1.1 Pub
MIT
基於PubTables1M數據集訓練的表格變換器模型,用於文檔中的表格結構識別。
文字識別
Transformers

T
microsoft
1,634
4
Mlcd Vit Bigg Patch14 448
MIT
MLCD-ViT-bigG是一款採用二維旋轉位置編碼(RoPE2D)增強的先進視覺Transformer模型,在文檔理解和視覺問答任務中表現卓越。
文字識別
M
DeepGlint-AI
1,517
3
Pix2text Mfd
MIT
Pix2Text的數學公式檢測(MFD)模型,用於識別圖片中的數學公式
文字識別 其他
P
breezedeus
1,369
3
Layoutlmv2 Finetuned Funsd
基於 Microsoft LayoutLMv2 模型在 FUNSD 數據集上微調的文檔理解模型
文字識別
Transformers

L
nielsr
1,319
13
PP DocLayout Plus L
Apache-2.0
PP-DocLayout_plus-L 是一個高精度的文檔佈局區域定位模型,基於 RT-DETR-L 架構訓練,支持 20 種常見文檔元素的檢測。
文字識別 支持多種語言
P
PaddlePaddle
1,308
0
RT DETR L Wired Table Cell Det
Apache-2.0
RT-DETR-L_wired_table_cell_det 是表格識別任務中的關鍵模塊,主要負責定位和標記表格圖像中的每個單元格區域。
文字識別 支持多種語言
R
PaddlePaddle
1,144
0
RT DETR L Wireless Table Cell Det
Apache-2.0
RT-DETR-L_wireless_table_cell_det 是一個高精度的表格單元格檢測模型,專為表格識別任務設計,能夠準確定位和標記表格圖像中的每個單元格區域。
文字識別 支持多種語言
R
PaddlePaddle
1,144
0
Slanext Wired
Apache-2.0
SLANeXt_wired 是一個用於表格結構識別的深度學習模型,能夠將不可編輯的表格圖像轉換為可編輯的表格格式(如 HTML)。
文字識別 支持多種語言
S
PaddlePaddle
1,141
0
Pix2text Table Rec
MIT
基於微軟Table Transformer開發的表格結構識別模型,用於文檔中的表格檢測與識別任務
文字識別
Transformers

P
breezedeus
1,124
2
Slanet Plus
Apache-2.0
SLANet_plus是一款用於表格結構識別的模型,能夠將不可編輯的表格圖像轉換為可編輯的表格格式(如HTML),在表格識別系統中發揮著重要作用,可有效提升表格識別的準確性和效率。
文字識別 支持多種語言
S
PaddlePaddle
1,121
0
Textnet Base
TextNet是一款專為文本檢測設計的輕量高效架構,通過三個變體在檢測精度與推理速度間實現卓越平衡。
文字識別
Transformers

T
czczup
1,061
3
PP DocBlockLayout
Apache-2.0
PP-DocBlockLayout 是一個基於 RT-DETR-L 訓練的文檔佈局塊定位模型,能夠有效識別多種文檔類型中的佈局區域。
文字識別 支持多種語言
P
PaddlePaddle
1,039
0
Qari OCR V0.3 VL 2B Instruct
Apache-2.0
QARI-OCR v0.3 是一款專注於阿拉伯語結構化文檔理解的光學字符識別視覺語言模型,基於 Qwen2-VL-2B-Instruct 構建,擅長保留文檔佈局和格式。
文字識別
Transformers 阿拉伯語

Q
NAMAA-Space
1,016
2
PP OCRv4 Server Seal Det
Apache-2.0
PP-OCRv4的服務器端印章文本檢測模型,具有高準確性,適用於服務器部署,能有效解決印章文本檢測難題。
文字識別 支持多種語言
P
PaddlePaddle
1,013
0
Trocr Base Ru
Apache-2.0
基於microsoft/trocr-base-handwritten微調的俄語和英語OCR模型,專注於手寫和印刷體文本識別
文字識別
Transformers 支持多種語言

T
raxtemur
977
26
PP FormulaNet Plus L
Apache-2.0
PP-FormulaNet_plus-L 是 PaddleOCR 團隊開發的增強版公式識別模型,支持中文公式識別,最大標記數提升至2560,適用於複雜公式場景。
文字識別 支持多種語言
P
PaddlePaddle
954
0
- 1
- 2
- 3
- 4
- 5