Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged GGUF
這是一個基於Qari-OCR-0.3-SNAPSHOT-VL-2B-Instruct-merged模型的靜態量化版本,主要用於圖像到文本的轉換任務。
圖像生成文本
Transformers 英語

Q
mradermacher
188
0
Florence Base Mixed Line Bbox Ocr
MIT
基於Microsoft Florence-2基礎模型微調的圖像轉文本模型,支持瑞典語和英語,專注於歷史手寫文本識別和光學字符識別。
圖像生成文本
Safetensors
F
nazounoryuu
112
0
Mixtex Finetune
MIT
MixTex base_ZhEn 是一個支持中文和英語的圖像轉文本模型,基於MIT許可證發佈。
圖像生成文本 支持多種語言
M
wzmmmm
27
0
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本
V
aryan083
31
0
Sarashina2 Vision 8b
MIT
Sarashina2-Vision-8B是由SB Intuitions訓練的日本大型視覺語言模型,基於Sarashina2-7B和Qwen2-VL-7B的圖像編碼器,在多個基準測試中表現優異。
圖像生成文本
Transformers 支持多種語言

S
sbintuitions
1,233
4
Bpe Vocab N OCR
Apache-2.0
Bpe-vocab-n-OCR 是一款基於OCR的高級文本提取工具,專為生成結構化、分詞的輸出而優化。
圖像生成文本
Transformers 支持多種語言

B
prithivMLmods
76
4
Thai Handwriting Llm
Apache-2.0
基於Llama-3.2-11B-Vision-Instruct的LoRA適配視覺語言模型,可從圖像中轉錄泰語手寫文本。
圖像生成文本
Safetensors 其他
T
Aekanun
9
6
Sdxl Aam Xl Anime Mix
其他
基於Stable Diffusion XL的動漫風格圖像生成模型,支持圖像到文本的轉換
圖像生成
S
zenless-lab
1,259
0
BLIP Radiology Model
基於transformers庫的圖像轉文本模型,支持將圖像內容轉換為描述性文本。
圖像生成文本
Transformers

B
motheecreator
152
0
Trocr Nepali
基於TrOCR架構的天城文光學字符識別模型,專門針對尼泊爾語/天城文字符進行微調
文字識別
Transformers 其他

T
syubraj
175
0
Trocr Math Handwritten
TrOCR是一個基於Transformer的OCR模型,專門用於識別手寫數學公式
圖像生成文本
Transformers

T
fhswf
290
6
Florence 2 Large
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
圖像生成文本
Transformers

F
Binaryy
24
0
Florence 2 Large
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
圖像生成文本
Transformers

F
lodestone-horizon
14
0
Horus OCR
Donut 是一個基於 Transformer 的圖像轉文本模型,能夠從圖像中提取和生成文本內容。
圖像生成文本
Transformers

H
TeeA
21
0
Trocr German Handwritten
這是一個基於Transformer的OCR模型,專門用於識別德語手寫文本。
文字識別
Transformers 德語

T
fhswf
841
7
Paligemma 3b Mix 448 Ft TableDetection
基於google/paligemma-3b-mix-448微調的多模態表格檢測模型,專用於識別圖像中的表格區域
圖像生成文本
Transformers

P
ucsahin
19
4
Libra 11b Base
Apache-2.0
天秤座是一個基於大語言模型構建的解耦視覺系統,具備基礎多模態理解能力。
圖像生成文本
Transformers

L
YifanXu
18
0
OCR TextInput Base
一個專注於金融領域的圖像轉文本模型,支持英文文本識別,主要用於處理金融文檔中的圖像內容。
文字識別
Transformers 英語

O
rohit5895
31
0
Llava Phi 3 Mini Gguf
LLaVA-Phi-3-mini 是基於 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微調的 LLaVA 模型,專注於圖像轉文本任務。
圖像生成文本
L
xtuner
1,676
133
Trocr Base Finetune Numbers
TrOCR 是一個基於Transformer的光學字符識別模型,用於從圖像中提取文本內容。
圖像生成文本
Transformers 英語

T
ANANDHU-SCT
23
0
Infimm Hd
InfiMM-HD是一個高分辨率多模態模型,能夠理解和生成結合圖像和文本的內容。
圖像生成文本
Transformers 英語

I
Infi-MM
17
27
Trocr Sinhala
該模型是微軟TrOCR印刷體模型的微調版本,專門用於僧伽羅文的OCR識別任務。
文字識別
Transformers 其他

T
Ransaka
66
1
Ocrmnist
Apache-2.0
基於Hugging Face Transformers的光學字符識別模型,專門用於識別MNIST風格的數字圖像
文字識別
Transformers 英語

O
vanshp123
16
0
Trocr Base Printed Captcha Ocr
基於微軟trocr-base-printed模型微調的驗證碼識別模型,專門用於處理印刷體文本的OCR任務
文字識別
Transformers

T
chanelcolgate
33
1
Image Caption Using ViT GPT2
Apache-2.0
這是一個基於Vision Transformer(ViT)和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

I
Ayansk11
15
1
Donut Finetune Rvl Cdip
Apache-2.0
基於Donut框架的文檔分類模型,在RVL-CDIP小規模數據集上訓練
圖像生成文本
Transformers 英語

D
sitloboi2012
18
0
Trocr Base Fa V2
這是一個基於Transformer的OCR模型,專門用於識別波斯語文本圖像。
文字識別 其他
T
hezarai
64
3
Git Base Next Refined
MIT
基於microsoft/git-base微調的圖像轉文本模型
大型語言模型
Transformers 其他

G
swaroopajit
24
0
Manga Ocr Base
Apache-2.0
專注於日本漫畫的日語文本光學字符識別模型
文字識別
Transformers 日語

M
TareHimself
96
1
Vit Gpt2 Verifycode Caption
Apache-2.0
基於60000張圖片訓練集微調的Vit-GPT2架構驗證碼識別模型,能夠準確識別圖像中的驗證碼文本。
圖像生成文本
Transformers

V
AIris-Channel
28
1
Blip Base Captioning Ft Hl Scenes
Apache-2.0
該模型是基於BLIP架構的圖像描述生成模型,專門針對場景高層描述進行了微調。
圖像生成文本
Transformers 英語

B
michelecafagna26
13
0
Pix2struct Refexp Base
Apache-2.0
Pix2Struct是一個圖像編碼器-文本解碼器模型,針對多種視覺語言任務進行訓練,包括圖像描述和視覺問答。
圖像生成文本
Transformers 支持多種語言

P
gitlost-murali
20
0
Trocr Small Korean
Apache-2.0
TrOCR是一個基於視覺編碼器-解碼器架構的韓語圖像轉文本模型,使用DeiT作為圖像編碼器,RoBERTa作為文本解碼器。
圖像生成文本 韓語
T
team-lucid
342
17
Git 20
MIT
基於微軟GIT框架的多模態模型,專注於從學生作業圖像中提取文本並生成教師反饋
圖像生成文本
Transformers 支持多種語言

G
uf-aice-lab
18
1
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型,具體用途未明確說明
文字識別
Transformers

D
iamkhadke
13
0
Donut Base Finetuned SOGC Archive Trademarks 1883 2001
一個用於識別和解析歷史商標文檔的多語言圖像轉文本模型,支持德語、意大利語和法語。
圖像生成文本
Transformers 支持多種語言

D
Travad98
24
0
Hdd Words Ocr
一個用於希伯來語圖像轉文本的OCR模型,能夠識別圖像中的希伯來語文字。
文字識別
Transformers 其他

H
sivan22
25
0
Mangaocr Hoogberta V2
一個基於TrOCR架構的日文漫畫文本識別模型,專門用於從漫畫圖像中提取文本內容。
圖像生成文本
Transformers

M
dsupa
39
0
Donut Pdf Ocr
基於圖像文件夾數據集訓練的OCR模型,用於PDF文檔的文本識別
文字識別
Transformers

D
shubh1608
67
5
Trocr Base Handwritten OCR Handwriting Recognition V2
基於微軟trocr-base-handwritten微調的手寫體OCR模型,在評估集上字符錯誤率(CER)為0.0360
文字識別
Transformers 英語

T
DunnBC22
269
16
- 1
- 2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98