PP OCRv4 Mobile Det
Apache-2.0
PP-OCRv4_mobile_det 是由 PaddleOCR 團隊開發的針對移動設備優化的高效文本檢測模型,適合邊緣設備部署。
文字識別 支持多種語言
P
PaddlePaddle
360
0
PP OCRv5 Mobile Rec
Apache-2.0
PP-OCRv5_mobile_rec 是 PaddleOCR 團隊開發的最新一代文本行識別模型,支持簡體中文、繁體中文、英文和日文四種語言的識別,適用於多種複雜文本場景。
文字識別 支持多種語言
P
PaddlePaddle
499
0
PP OCRv5 Server Rec
Apache-2.0
PP-OCRv5_server_rec 是 PaddleOCR 團隊開發的最新一代文本行識別模型,支持多語言和複雜文本場景的識別。
文字識別 支持多種語言
P
PaddlePaddle
8,601
0
Florence Base Mixed Line Bbox Ocr
MIT
基於Microsoft Florence-2基礎模型微調的圖像轉文本模型,支持瑞典語和英語,專注於歷史手寫文本識別和光學字符識別。
圖像生成文本
Safetensors
F
nazounoryuu
112
0
Mistral Small 1
MIT
基於Mistral-Small-3.1-24B-Instruct-2503構建的圖像文本轉文本模型,支持多語言處理
圖像生成文本
Safetensors 支持多種語言
M
CreitinGameplays
109
1
Internvl3 2B AWQ
其他
InternVL3-2B是OpenGVLab推出的先進多模態大語言模型(MLLM),具備卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。

I
OpenGVLab
677
1
Minicpm V 2 6
MiniCPM-V 2.6是一款強大的多模態大語言模型,能夠在手機等設備上高效運行,支持單圖像、多圖像和視頻理解任務。
文本生成圖像
Transformers 其他

M
FriendliAI
102
0
Paligemma2 3b Mix 224 Jax
PaliGemma 2是基於Gemma 2的升級版視覺語言模型,支持多語言圖文輸入與文本輸出,專為視覺語言任務設計
文本生成圖像
P
google
38
1
Minicpm O 2 6 Int4
MiniCPM-o 2.6的int4量化版本,顯著降低GPU顯存佔用,支持多模態處理能力。
文本生成音頻
Transformers 其他

M
openbmb
4,249
42
Paligemma2 28b Mix 224
PaliGemma 2是Google推出的升級版視覺語言模型,結合Gemma 2和SigLIP視覺模型能力,支持多語言圖像文本交互任務。
圖像生成文本
Transformers

P
google
2,050
4
Paligemma2 28b Mix 448
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像+文本輸入,輸出文本響應,適用於多種視覺語言任務。
圖像生成文本
Transformers

P
google
198
26
Paligemma2 10b Mix 224
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像和文本輸入,生成文本輸出,適用於多種視覺語言任務。
圖像生成文本
Transformers

P
google
701
7
Paligemma2 3b Mix 448
PaliGemma 2是基於Gemma 2的視覺語言模型,支持圖像與文本輸入,輸出生成文本,適用於多種視覺語言任務。
圖像生成文本
Transformers

P
google
20.55k
44
Trocr Nepali
基於TrOCR架構的天城文光學字符識別模型,專門針對尼泊爾語/天城文字符進行微調
文字識別
Transformers 其他

T
syubraj
175
0
Thai Trocr
Apache-2.0
基於TrOCR基礎手寫體模型微調而成的泰語和英語光學字符識別模型,擅長處理手寫文本行圖像
文字識別
Transformers 支持多種語言

T
openthaigpt
2,677
9
Urdu Ocr
該模型是針對烏爾都語OCR任務專門訓練的,最適合處理單行烏爾都語文本圖像,主要專注於印刷體文本。
文字識別
Transformers 其他

U
cxfajar197
114
1
Trocr Medieval Cursiva
MIT
這是一個基於TrOCR的中世紀草書體識別模型,專門用於識別拉丁語、法語、意大利語、西班牙語和加泰羅尼亞語的中世紀手寫文本。
文字識別
Transformers 支持多種語言

T
medieval-data
18
1
Trocr Base Ru
Apache-2.0
TrOCR-Ru是基於microsoft/trocr-base-handwritten在俄語和英語合成數據集上微調的光學字符識別模型,專注於圖像轉文本任務。
文字識別
Transformers 支持多種語言

T
sherstpasha99
30
0
Trocr Base Finetune Numbers
TrOCR 是一個基於Transformer的光學字符識別模型,用於從圖像中提取文本內容。
圖像生成文本
Transformers 英語

T
ANANDHU-SCT
23
0
Trocr Base Ckb
一個基於Transformer架構的OCR系統,專門用於識別中部庫爾德語文本,使用合成數據進行訓練。
文字識別
Transformers

T
razhan
19
0
Pix2struct Ocrvqa Base
Apache-2.0
Pix2Struct是基於OCR-VQA任務微調的視覺問答模型,能夠解析圖像中的文本內容並回答問題
圖像生成文本
Transformers 支持多種語言

P
google
38
1
Pix2struct Docvqa Base
Apache-2.0
Pix2Struct是一個圖像編碼器-文本解碼器模型,通過圖像-文本對訓練,支持多種任務,包括圖像描述生成和視覺問答。
圖像生成文本
Transformers 支持多種語言

P
google
8,601
37
Pix2struct Chartqa Base
Apache-2.0
Pix2Struct是一種圖像編碼器-文本解碼器模型,通過圖像-文本配對數據進行多任務訓練,專門針對圖表問答任務進行微調
文本生成圖像
Transformers 支持多種語言

P
google
181
8
Donut Base Finetuned Latvian Receipts
MIT
該模型是基於donut-base在拉脫維亞收據數據集上微調的版本,主要用於收據圖像處理任務
文字識別
Transformers

D
Inesence
31
0
Doctr Torch Crnn Mobilenet V3 Large French
基於TensorFlow 2和PyTorch的光學字符識別(OCR)模型,支持多語言文本檢測與識別
文字識別
Transformers 支持多種語言

D
Felix92
33
3
Doctr Tf Crnn Vgg16 Bn French
基於 TensorFlow 2 和 PyTorch 的光學字符識別技術,支持多語言文檔識別
文字識別
Transformers 支持多種語言

D
Felix92
16
0
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98