Visionocr 3B 061125 GGUF
Apache-2.0
基於Qwen2.5-VL-3B-Instruct微調的視覺OCR模型,專注於文檔級OCR、長上下文視覺語言理解和數學LaTeX格式轉換
圖像生成文本
Transformers 英語

V
prithivMLmods
131
1
RT DETR L Wireless Table Cell Det
Apache-2.0
RT-DETR-L_wireless_table_cell_det 是一個高精度的表格單元格檢測模型,專為表格識別任務設計,能夠準確定位和標記表格圖像中的每個單元格區域。
文字識別 支持多種語言
R
PaddlePaddle
1,144
0
RT DETR L Wired Table Cell Det
Apache-2.0
RT-DETR-L_wired_table_cell_det 是表格識別任務中的關鍵模塊,主要負責定位和標記表格圖像中的每個單元格區域。
文字識別 支持多種語言
R
PaddlePaddle
1,144
0
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一個強大的視覺語言模型,具備增強的數學和問題解決能力,適用於多模態任務。
圖像生成文本 英語
Q
unsloth
464
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL是Qwen家族最新推出的視覺語言模型,具備強大的視覺理解和多模態處理能力,支持圖像、視頻分析和結構化輸出。
圖像生成文本 英語
Q
unsloth
8,427
4
Qwen2.5 VL 3B Instruct GGUF
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備強大的視覺理解和多模態處理能力。
圖像生成文本 英語
Q
unsloth
4,645
4
Docscopeocr 7B 050425 Exp
Apache-2.0
docscopeOCR-7B-050425-exp 是基於 Qwen/Qwen2.5-VL-7B-Instruct 微調的模型,專注於文檔級 OCR、長上下文視覺語言理解和數學 LaTeX 格式的精確圖像到文本轉換。
圖像生成文本
Transformers 支持多種語言

D
prithivMLmods
531
2
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新視覺語言模型,具備強大的多模態理解和生成能力,支持圖像、視頻和文本的交互。
文本生成圖像
Transformers 英語

Q
christopherthompson81
68
3
Qwen2.5 VL Instruct 3B Geo
Apache-2.0
Qwen2.5-VL是Qwen家族的最新視覺語言模型,專注於增強視覺理解和代理能力。
文本生成圖像
Transformers 英語

Q
kxxinDave
29
2
Qwen2.5 VL 72B Instruct AWQ Fix
其他
Qwen2.5-VL 是 Qwen 家族的最新視覺語言模型,具備強大的視覺理解和代理能力,支持多格式視覺定位和結構化輸出生成。
圖像生成文本
Transformers 英語

Q
Benasd
94
1
Qwen2.5 VL 72B Instruct AWQ
其他
Qwen2.5-VL是通義千問團隊推出的多模態大語言模型,具備強大的視覺理解和智能代理能力,支持圖像、視頻、文本等多種輸入格式。
文本生成圖像
Transformers 英語

Q
Benasd
173
6
Qwen2.5 VL 72B Instruct Pointer AWQ
其他
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備增強的視覺理解、代理能力和結構化輸出生成功能。
圖像生成文本
Transformers 英語

Q
PointerHQ
5,592
8
Qwen2.5 VL 7B Instruct AWQ
Apache-2.0
Qwen2.5-VL是通義千問推出的多模態視覺語言模型,具備強大的圖像理解和文本生成能力。
圖像生成文本
Transformers 英語

Q
Benasd
226
7
Qwen2.5 VL 3B Instruct 4bit
Qwen2.5-VL是Qwen家族的最新視覺語言模型,具備增強的視覺理解、智能體功能和長視頻處理能力。
文本生成圖像
Transformers 英語

Q
jarvisvasu
174
3
Gemma 2 2B TR Knowledge Graph
Gemma-2-2B-TR-Knowledge-Graph 是基於 gemma-2-2b-it 微調的模型,專注於從文檔內容生成結構化知識圖譜。
知識圖譜
Safetensors 其他
G
Metin
122
23
Fintabqa
MIT
基於LayoutLM架構的金融表格問答模型,專門用於從金融表格中提取和回答結構化問題。
問答系統
Transformers 英語

F
ethanbradley
128
0
Output LayoutLMv3 V7
基於microsoft/layoutlmv3-base微調的文檔理解模型,擅長處理文檔佈局分析任務
文字識別
Transformers

O
Noureddinesa
18
1
Table Transformer Detection Custom Ale
MIT
基於DETR架構的表格檢測模型,專門用於從文檔中識別表格區域
文字識別
Transformers

T
aParadigmP
44
0
Trained Model
該模型是基於microsoft/layoutlmv2-base-uncased在generator數據集上微調的版本,適用於文檔理解和佈局分析任務。
大型語言模型
Transformers

T
vfu
14
0
Donut Receipt V2
MIT
基於naver-clova-ix/donut-base微調的模型,可能用於收據識別或文檔理解任務
大型語言模型
Transformers

D
mychen76
31
0
Donut Demo
MIT
CORD-v2 是一個用於圖像轉文本任務的模型,主要用於從圖像中提取和識別文本內容。
文字識別
Transformers

D
zhongren2
20
0
Model3
MIT
基於naver-clova-ix/donut-base-finetuned-cord-v2微調的文檔圖像理解模型
圖像生成文本
Transformers

M
sunilsai
13
0
Donut Base Finetuned Cord V2
Donut是一個基於Swin Transformer的視覺文檔理解模型,專門針對CORD數據集進行了微調,能夠從圖像中提取結構化文本信息。
圖像生成文本
Transformers

D
Xenova
32
0
Table Detection
MIT
基於DETR架構的表格檢測模型,專門用於從非結構化文檔中識別和提取表格
目標檢測
Transformers

T
grays-ai
17
0
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型,具體用途未明確說明
文字識別
Transformers

D
iamkhadke
13
0
Thesisdonut
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途和功能需要更多信息
圖像生成文本
Transformers

T
Humayoun
13
0
Donut Base Receipt V3
MIT
基於naver-clova-ix/donut-base微調的收據識別模型
大型語言模型
Transformers

D
hyunguk1
13
0
All Format
MIT
基於philschmid/donut-base-sroie微調的模型,適用於圖像處理任務
文字識別
Transformers

A
dreeven
17
0
Donut Base Finetuned Latvian Receipts V2
MIT
基於Donut架構的模型,專門針對拉脫維亞收據數據進行了微調
文字識別
Transformers

D
Inesence
13
0
Donut Base Finetuned Latvian Receipts
MIT
該模型是基於donut-base在拉脫維亞收據數據集上微調的版本,主要用於收據圖像處理任務
文字識別
Transformers

D
Inesence
31
0
Yolov8n Table Extraction
基於YOLOv8的表格檢測模型,能夠識別文檔中的表格區域,支持帶邊框和無邊框兩種表格類型。
目標檢測
TensorBoard

Y
keremberke
474
13
Donut Base Sroie
MIT
該模型是基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的版本,適用於文檔理解任務。
文字識別
Transformers

D
unstructuredio
31
1
Donut Base Sroie
MIT
基於philschmid/donut-base-sroie微調的文檔理解模型
文字識別
Transformers

D
Prem11100
13
0
Donut Base Medical Handwritten Blocks Data Extraction
MIT
基於Donut架構的模型,專門用於從醫療手寫文檔中提取結構化數據
文字識別
Transformers

D
mjawadazad2321
15
1
DETR Table Detection
Table Transformer是一個基於DETR架構的表格檢測模型,專門用於從文檔圖像中檢測和識別表格結構。
文字識別
Transformers 英語

D
SalML
17
2
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base微調的文檔理解模型,適用於圖像文本提取任務
文字識別
Transformers

D
philschmid
185
3
Layoutlmv3 Finetuned Invoice
基於LayoutLMv3-base在SROIE數據集上微調的發票信息提取模型,在標記分類任務上表現優異
文字識別
Transformers

L
oussama
52
5
Layoutlmv3 Finetuned Cord
基於LayoutLMv3在CORD數據集上微調的文檔理解模型,擅長文檔標記分類任務
文字識別
Transformers

L
nielsr
617
12
Layoutlmv2 Finetuned Sroie
基於LayoutLMv2架構在SROIE數據集上微調的文檔信息提取模型,擅長從收據文檔中提取關鍵字段
序列標註
Transformers

L
Theivaprakasham
71
2
Layoutlmv2 Finetuned Sroie Mod
基於microsoft/layoutlmv2-base-uncased微調的文檔理解模型,適用於結構化文檔信息提取任務
大型語言模型
Transformers

L
Theivaprakasham
37
1
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98