# 高精度OCR

En PP OCRv4 Mobile Rec
Apache-2.0
PaddleOCR團隊開發的超輕量級英文文本行識別模型,支持英文和數字字符識別
文字識別 支持多種語言
E
PaddlePaddle
303
0
Slanext Wired
Apache-2.0
SLANeXt_wired 是一個用於表格結構識別的深度學習模型,能夠將不可編輯的表格圖像轉換為可編輯的表格格式(如 HTML)。
文字識別 支持多種語言
S
PaddlePaddle
1,141
0
PP OCRv5 Server Det
Apache-2.0
PP-OCRv5_server_det 是 PaddleOCR 團隊研發的最新一代文本檢測模型,專為高性能應用場景設計,支持檢測多種場景下的文本,包括手寫、豎排、旋轉和彎曲文本,可識別多種語言。
文字識別 支持多種語言
P
PaddlePaddle
8,722
2
Llama 3.1 Nemotron Nano VL 8B V1
其他
Llama-3.1-Nemotron-Nano-VL-8B-V1是一款先進的文檔智能視覺語言模型,能夠對圖像和視頻進行查詢與總結,支持多環境部署。
圖像生成文本 Transformers
L
nvidia
1,092
66
Space Model
Apache-2.0
Qwen2.5-VL-32B-Instruct是Qwen家族的最新視覺語言模型,具備強大的視覺理解和智能代理能力,支持多模態任務處理。
圖像生成文本 Transformers 支持多種語言
S
Alhdrawi
58
1
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新視覺語言模型,具備強大的多模態理解和生成能力,支持圖像、視頻和文本的交互。
文本生成圖像 Transformers 英語
Q
christopherthompson81
68
3
Sapnous VR 6B
Apache-2.0
Sapnous-6B是一款先進的視覺語言模型,通過強大的多模態能力提升對世界的感知和理解。
圖像生成文本 Transformers 英語
S
Sapnous-AI
261
5
Aya Vision 32b
Aya Vision 32B是Cohere實驗室開發的開放權重32B參數多模態模型,支持23種語言的視覺語言任務。
圖像生成文本 Transformers 支持多種語言
A
CohereLabs
387
193
Qwen2.5 VL 72B Instruct AWQ
其他
Qwen2.5-VL是通義千問團隊推出的多模態大語言模型,具備強大的視覺理解和智能代理能力,支持圖像、視頻、文本等多種輸入格式。
文本生成圖像 Transformers 英語
Q
Benasd
173
6
Typhoon2 Qwen2vl 7b Vision Instruct
Apache-2.0
Typhoon2-Vision 是一款支持泰語的視覺語言模型,能夠處理圖像和視頻輸入,特別針對基於圖像的應用進行了優化。
文本生成圖像 Transformers 支持多種語言
T
scb10x
793
11
Paligemma2 3b Mix 224
PaliGemma 2是Google開發的升級版視覺語言模型,結合了Gemma 2的能力,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
圖像生成文本 Transformers
P
google
15.23k
28
TF ID Base
MIT
TF-ID是一系列目標檢測模型,專門用於提取學術論文中的表格和圖表及其標題文本。
圖像生成文本 Transformers
T
yifeihu
408
36
TF ID Large
MIT
TF-ID是專門用於提取學術論文中表格和圖表的視覺目標檢測模型,基於Florence-2微調而成
目標檢測 Transformers
T
yifeihu
9,893
21
Pix2text Mfr Quantized
MIT
Pix2Text的數學公式識別(MFR)模型,基於TrOCR架構訓練,可將數學公式圖片轉換為LaTeX文本表示。
文字識別 Transformers
P
Brian314
37
0
Pix2text Mfd
MIT
Pix2Text的數學公式檢測(MFD)模型,用於識別圖片中的數學公式
文字識別 其他
P
breezedeus
1,369
3
Extract Matic
MIT
Sparrow是基於Donut ML基礎模型在發票數據上微調的文檔數據提取模型,旨在驗證Donut在企業文檔上的表現性能。
圖像生成文本 Transformers 英語
E
ssraut
17
0
Extract Matic
MIT
Sparrow是基於Donut ML基礎模型在發票數據上微調而成的文檔數據提取工具,旨在驗證Donut在企業文檔上的表現性能。
圖像生成文本 Transformers 英語
E
PCS
17
0
Final Model
Apache-2.0
該模型是一個基於Apache-2.0許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
文字識別 Transformers
F
goatrider
17
0
OCR TextInput Base
一個專注於金融領域的圖像轉文本模型,支持英文文本識別,主要用於處理金融文檔中的圖像內容。
文字識別 Transformers 英語
O
rohit5895
31
0
Output LayoutLMv3 V7
基於microsoft/layoutlmv3-base微調的文檔理解模型,擅長處理文檔佈局分析任務
文字識別 Transformers
O
Noureddinesa
18
1
Minicpm V 2
MiniCPM-V 2.0是面向高效終端部署的強大多模態大語言模型,基於SigLip-400M和MiniCPM-2.4B構建,通過感知器重採樣器連接。
文本生成圖像 Transformers 支持多種語言
M
openbmb
9,097
461
Trocr Base Plate Number
Apache-2.0
一個用於識別車輛牌照的視覺模型,能夠從圖像中提取車牌號碼。
文字識別 Transformers
T
ristek-dsa
29
0
Moai 7B
MIT
MoAI是一個大型語言與視覺混合模型,能夠處理圖像和文本輸入,生成文本輸出。
圖像生成文本 Transformers
M
BK-Lee
183
45
Pix2text Mfr
MIT
Pix2Text的數學公式識別(MFR)模型,基於TrOCR架構訓練,能夠將數學公式圖像轉換為LaTeX文本表示。
文字識別 Transformers
P
breezedeus
5,753
35
Trocr Base Printed License Plates Ocr Timestamp
基於microsoft/trocr-base-printed微調的OCR模型,專門用於識別車牌和時間戳信息
文字識別 Transformers
T
PQAshwin
132
1
Nougat For Formula
Apache-2.0
基於Nougat-small微調的數學公式識別模型,擅長從圖像中提取LaTeX公式代碼
圖像生成文本 Transformers
N
CuiSiwei
40
5
Donut Demo
MIT
CORD-v2 是一個用於圖像轉文本任務的模型,主要用於從圖像中提取和識別文本內容。
文字識別 Transformers
D
zhongren2
20
0
Finetune Donut Cord V2.5
Openrail
這是一個基於Donut架構的視覺語言模型,專門針對CORD-V2數據集進行微調,用於文檔圖像轉文本任務。
圖像生成文本 Transformers
F
fahmiaziz
97
3
Nougat
該模型已過時,建議使用官方Nougat模型。Nougat是一種先進的視覺語言模型,專注於文檔理解和分析。
圖像生成文本 Transformers
N
nielsr
14
4
Trocr MICR
一款專用於轉錄e13b MICR碼的OCR模型,基於微軟的TrOCR-large-stage1微調而來。
文字識別 Transformers 英語
T
Apocalypse-19
94
1
Pix2struct Tiny Random
MIT
這是一個基於MIT許可證的圖像轉文本模型,能夠將圖像內容轉換為描述性文本。
圖像生成文本 Transformers
P
fxmarty
60.87k
2
General Image Captioning
Apache-2.0
這是一個基於Apache-2.0許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
文字識別 Transformers 其他
G
alibidaran
30
0
Thesisdonut
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途和功能需要更多信息
圖像生成文本 Transformers
T
Humayoun
13
0
Layoutlmv3 Finetuned DocLayNet
基於LayoutLMv3架構微調的文檔佈局分析模型,專門用於處理DocLayNet數據集中的文檔元素分類任務。
文字識別 Transformers 英語
L
Mit1208
226
1
Invoices Donut Model V1
MIT
Sparrow是基於Donut ML基礎模型在發票數據上微調的文檔數據提取模型,旨在驗證Donut在企業文檔上的表現性能。
圖像生成文本 Transformers 英語
I
katanaml-org
216
38
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
這是一個基於MIT許可證的圖像轉文本模型,能夠將圖像內容轉換為文本描述。
圖像生成文本
M
laion
21.02k
20
Donut Demo
MIT
這是一個基於CORD-v2數據集微調的Donut模型,專為圖像轉文本任務設計,平均準確率達到0.901。
圖像生成文本 Transformers
D
katanaml
24
3
Layoutlmv3 Finetuned Funsd
基於microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3數據集上微調的文檔理解模型
文字識別 Transformers
L
Narsil
799
0
Mgp Str Base
MGP-STR是一個純視覺場景文本識別模型,通過多粒度預測實現高效OCR。
文字識別 Transformers
M
alibaba-damo
4,981
64
Dof Passport 1
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途未明確說明
圖像生成文本 Transformers
D
Sebabrata
16
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase