# 圖像轉文本

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged GGUF
這是一個基於Qari-OCR-0.3-SNAPSHOT-VL-2B-Instruct-merged模型的靜態量化版本,主要用於圖像到文本的轉換任務。
圖像生成文本 Transformers 英語
Q
mradermacher
188
0
Florence Base Mixed Line Bbox Ocr
MIT
基於Microsoft Florence-2基礎模型微調的圖像轉文本模型,支持瑞典語和英語,專注於歷史手寫文本識別和光學字符識別。
圖像生成文本 Safetensors
F
nazounoryuu
112
0
Mixtex Finetune
MIT
MixTex base_ZhEn 是一個支持中文和英語的圖像轉文本模型,基於MIT許可證發佈。
圖像生成文本 支持多種語言
M
wzmmmm
27
0
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入的圖像生成自然語言描述。
圖像生成文本
V
aryan083
31
0
Sarashina2 Vision 8b
MIT
Sarashina2-Vision-8B是由SB Intuitions訓練的日本大型視覺語言模型,基於Sarashina2-7B和Qwen2-VL-7B的圖像編碼器,在多個基準測試中表現優異。
圖像生成文本 Transformers 支持多種語言
S
sbintuitions
1,233
4
Bpe Vocab N OCR
Apache-2.0
Bpe-vocab-n-OCR 是一款基於OCR的高級文本提取工具,專為生成結構化、分詞的輸出而優化。
圖像生成文本 Transformers 支持多種語言
B
prithivMLmods
76
4
Thai Handwriting Llm
Apache-2.0
基於Llama-3.2-11B-Vision-Instruct的LoRA適配視覺語言模型,可從圖像中轉錄泰語手寫文本。
圖像生成文本 Safetensors 其他
T
Aekanun
9
6
Sdxl Aam Xl Anime Mix
其他
基於Stable Diffusion XL的動漫風格圖像生成模型,支持圖像到文本的轉換
圖像生成
S
zenless-lab
1,259
0
BLIP Radiology Model
基於transformers庫的圖像轉文本模型,支持將圖像內容轉換為描述性文本。
圖像生成文本 Transformers
B
motheecreator
152
0
Trocr Nepali
基於TrOCR架構的天城文光學字符識別模型,專門針對尼泊爾語/天城文字符進行微調
文字識別 Transformers 其他
T
syubraj
175
0
Trocr Math Handwritten
TrOCR是一個基於Transformer的OCR模型,專門用於識別手寫數學公式
圖像生成文本 Transformers
T
fhswf
290
6
Florence 2 Large
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
圖像生成文本 Transformers
F
Binaryy
24
0
Florence 2 Large
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
圖像生成文本 Transformers
F
lodestone-horizon
14
0
Horus OCR
Donut 是一個基於 Transformer 的圖像轉文本模型,能夠從圖像中提取和生成文本內容。
圖像生成文本 Transformers
H
TeeA
21
0
Trocr German Handwritten
這是一個基於Transformer的OCR模型,專門用於識別德語手寫文本。
文字識別 Transformers 德語
T
fhswf
841
7
Paligemma 3b Mix 448 Ft TableDetection
基於google/paligemma-3b-mix-448微調的多模態表格檢測模型,專用於識別圖像中的表格區域
圖像生成文本 Transformers
P
ucsahin
19
4
Libra 11b Base
Apache-2.0
天秤座是一個基於大語言模型構建的解耦視覺系統,具備基礎多模態理解能力。
圖像生成文本 Transformers
L
YifanXu
18
0
OCR TextInput Base
一個專注於金融領域的圖像轉文本模型,支持英文文本識別,主要用於處理金融文檔中的圖像內容。
文字識別 Transformers 英語
O
rohit5895
31
0
Llava Phi 3 Mini Gguf
LLaVA-Phi-3-mini 是基於 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微調的 LLaVA 模型,專注於圖像轉文本任務。
圖像生成文本
L
xtuner
1,676
133
Trocr Base Finetune Numbers
TrOCR 是一個基於Transformer的光學字符識別模型,用於從圖像中提取文本內容。
圖像生成文本 Transformers 英語
T
ANANDHU-SCT
23
0
Infimm Hd
InfiMM-HD是一個高分辨率多模態模型,能夠理解和生成結合圖像和文本的內容。
圖像生成文本 Transformers 英語
I
Infi-MM
17
27
Trocr Sinhala
該模型是微軟TrOCR印刷體模型的微調版本,專門用於僧伽羅文的OCR識別任務。
文字識別 Transformers 其他
T
Ransaka
66
1
Ocrmnist
Apache-2.0
基於Hugging Face Transformers的光學字符識別模型,專門用於識別MNIST風格的數字圖像
文字識別 Transformers 英語
O
vanshp123
16
0
Trocr Base Printed Captcha Ocr
基於微軟trocr-base-printed模型微調的驗證碼識別模型,專門用於處理印刷體文本的OCR任務
文字識別 Transformers
T
chanelcolgate
33
1
Image Caption Using ViT GPT2
Apache-2.0
這是一個基於Vision Transformer(ViT)和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本 Transformers
I
Ayansk11
15
1
Donut Finetune Rvl Cdip
Apache-2.0
基於Donut框架的文檔分類模型,在RVL-CDIP小規模數據集上訓練
圖像生成文本 Transformers 英語
D
sitloboi2012
18
0
Trocr Base Fa V2
這是一個基於Transformer的OCR模型,專門用於識別波斯語文本圖像。
文字識別 其他
T
hezarai
64
3
Git Base Next Refined
MIT
基於microsoft/git-base微調的圖像轉文本模型
大型語言模型 Transformers 其他
G
swaroopajit
24
0
Manga Ocr Base
Apache-2.0
專注於日本漫畫的日語文本光學字符識別模型
文字識別 Transformers 日語
M
TareHimself
96
1
Vit Gpt2 Verifycode Caption
Apache-2.0
基於60000張圖片訓練集微調的Vit-GPT2架構驗證碼識別模型,能夠準確識別圖像中的驗證碼文本。
圖像生成文本 Transformers
V
AIris-Channel
28
1
Blip Base Captioning Ft Hl Scenes
Apache-2.0
該模型是基於BLIP架構的圖像描述生成模型,專門針對場景高層描述進行了微調。
圖像生成文本 Transformers 英語
B
michelecafagna26
13
0
Pix2struct Refexp Base
Apache-2.0
Pix2Struct是一個圖像編碼器-文本解碼器模型,針對多種視覺語言任務進行訓練,包括圖像描述和視覺問答。
圖像生成文本 Transformers 支持多種語言
P
gitlost-murali
20
0
Trocr Small Korean
Apache-2.0
TrOCR是一個基於視覺編碼器-解碼器架構的韓語圖像轉文本模型,使用DeiT作為圖像編碼器,RoBERTa作為文本解碼器。
圖像生成文本 韓語
T
team-lucid
342
17
Git 20
MIT
基於微軟GIT框架的多模態模型,專注於從學生作業圖像中提取文本並生成教師反饋
圖像生成文本 Transformers 支持多種語言
G
uf-aice-lab
18
1
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型,具體用途未明確說明
文字識別 Transformers
D
iamkhadke
13
0
Donut Base Finetuned SOGC Archive Trademarks 1883 2001
一個用於識別和解析歷史商標文檔的多語言圖像轉文本模型,支持德語、意大利語和法語。
圖像生成文本 Transformers 支持多種語言
D
Travad98
24
0
Hdd Words Ocr
一個用於希伯來語圖像轉文本的OCR模型,能夠識別圖像中的希伯來語文字。
文字識別 Transformers 其他
H
sivan22
25
0
Mangaocr Hoogberta V2
一個基於TrOCR架構的日文漫畫文本識別模型,專門用於從漫畫圖像中提取文本內容。
圖像生成文本 Transformers
M
dsupa
39
0
Donut Pdf Ocr
基於圖像文件夾數據集訓練的OCR模型,用於PDF文檔的文本識別
文字識別 Transformers
D
shubh1608
67
5
Trocr Base Handwritten OCR Handwriting Recognition V2
基於微軟trocr-base-handwritten微調的手寫體OCR模型,在評估集上字符錯誤率(CER)為0.0360
文字識別 Transformers 英語
T
DunnBC22
269
16
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase