Qwen2.5 VL 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-VL-7B-Instruct的量化版本,支持視覺-文本輸入和文本輸出,通過INT8權重量化優化推理效率
圖像生成文本
Transformers 英語

Q
RedHatAI
1,992
3
Qwen2.5 VL 3B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-3B-Instruct的FP8量化版本,支持視覺-文本輸入和文本輸出,優化了推理效率。
文本生成圖像
Transformers 英語

Q
RedHatAI
112
1
H2ovl Mississippi 800m
Apache-2.0
H2O.ai推出的8億參數視覺語言模型,專注於OCR和文檔理解,性能優異
圖像生成文本
Transformers 英語

H
h2oai
77.67k
33
Idefics3 8B Llama3
Apache-2.0
Idefics3是一個開源的多模態模型,能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。
圖像生成文本
Transformers 英語

I
HuggingFaceM4
45.86k
277
Horus OCR
Donut 是一個基於 Transformer 的圖像轉文本模型,能夠從圖像中提取和生成文本內容。
圖像生成文本
Transformers

H
TeeA
21
0
Fine Tuned Rvl Cdip
基於microsoft/layoutlmv3-base模型在文檔圖像分類任務上微調的版本,在評估集上F1分數達到0.8177
文字識別
Transformers

F
davidhajdu
21
1
Donut Base Handwriting Recognition
MIT
基於naver-clova-ix/donut-base微調的手寫識別模型
文字識別
Transformers

D
Cdywalst
140
1
Docllm Baichuan2 7b
DocLLM_reimplementation 是一個針對文檔理解任務的大語言模型實現項目,旨在重新實現和改進文檔理解能力。
大型語言模型
Transformers

D
JinghuiLuAstronaut
185
5
Donut 240202
MIT
基於Yazawa/donut-base-sroie微調的文檔理解模型,適用於結構化文檔信息提取任務
文字識別
Transformers

D
Yazawa
93
0
Donut Receipt V3
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途未明確說明
大型語言模型
Transformers

D
mychen76
28
0
Donut Receipt V2
MIT
基於naver-clova-ix/donut-base微調的模型,可能用於收據識別或文檔理解任務
大型語言模型
Transformers

D
mychen76
31
0
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型,具體用途未明確說明
文字識別
Transformers

D
iamkhadke
13
0
Donut Trained Example 3
MIT
基於Donut架構的微調模型,具體用途和功能需要更多信息
大型語言模型
Transformers

D
anarenteriare
14
0
Donut Trained Example 2
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途未明確說明
大型語言模型
Transformers

D
anarenteriare
13
0
Donut Base Receipt V3
MIT
基於naver-clova-ix/donut-base微調的收據識別模型
大型語言模型
Transformers

D
hyunguk1
13
0
Donut Base Receipt
MIT
基於naver-clova-ix/donut-base微調的收據識別模型
大型語言模型
Transformers

D
hyunguk1
19
0
Donut Base Ru
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途未明確說明
大型語言模型
Transformers

D
Nyaaneet
21
1
Donut Demo
MIT
這是一個基於CORD-v2數據集微調的Donut模型,專為圖像轉文本任務設計,平均準確率達到0.901。
圖像生成文本
Transformers

D
katanaml
24
3
Layoutlmv3 Finetuned Funsd
基於microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3數據集上微調的文檔理解模型
文字識別
Transformers

L
Narsil
799
0
Donut Base Sroie
MIT
該模型是基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的版本,適用於文檔理解任務。
文字識別
Transformers

D
unstructuredio
31
1
Dof Invoice 1
MIT
基於naver-clova-ix/donut-base微調的發票處理模型
圖像生成文本
Transformers

D
Sebabrata
13
0
Donut Base Label Studio 200 Invoices
MIT
基於Donut架構的發票識別模型,在200張發票數據集上微調
文字識別
Transformers

D
Prem11100
18
0
Donut Base Sroie
MIT
基於philschmid/donut-base-sroie微調的文檔理解模型
文字識別
Transformers

D
Prem11100
13
0
Lilt Infoxlm Base
MIT
LiLT-InfoXLM 是一種語言無關的佈局變換器模型,通過將預訓練的InfoXLM與語言無關佈局變換器(LiLT)結合而成,適用於結構化文檔理解任務。
多模態融合
Transformers

L
SCUT-DLVCLab
110
5
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base微調的文檔理解模型,適用於圖像文本提取任務
文字識別
Transformers

D
philschmid
185
3
Donut Demo
MIT
基於CORD-v2數據集微調的VisionEncoderDecoder模型,用於文檔理解任務
文字識別
Transformers

D
nielsr
56
1
Layoutlmv3 Finetuned Wildreceipt
基於LayoutLMv3-base模型在WildReceipt收據數據集上微調的版本,用於收據關鍵信息提取任務
文字識別
Transformers

L
Theivaprakasham
118
3
Layoutlmv3 Finetuned Invoice
基於LayoutLMv3架構微調的發票信息提取模型,在SROIE數據集上表現出色
文字識別
Transformers

L
ronak1998
71
3
Layoutlmv3 Finetuned Invoice
在發票數據集上對LayoutLMv3-base進行微調的版本,用於發票信息提取
文字識別
Transformers

L
Theivaprakasham
896
20
Layoutlmv3 Finetuned Cord
基於LayoutLMv3在CORD數據集上微調的文檔理解模型,擅長文檔標記分類任務
文字識別
Transformers

L
nielsr
617
12
Layoutlmv3 Finetuned Funsd
基於LayoutLMv3-base模型在FUNSD數據集上微調的文檔理解模型,擅長表單和文檔的標記分類任務
文字識別
Transformers

L
nielsr
2,420
25
Layoutlmv2 Finetuned Cord
基於microsoft/layoutlmv2-base-uncased模型在未知數據集上微調的版本,適用於文檔理解任務
文字識別
Transformers

L
speydach
17
0
Layoutlmv2 Finetuned Cord
基於LayoutLMv2架構在CORD數據集上微調的文檔理解模型,適用於結構化文檔信息提取任務
文字識別
Transformers

L
katanaml
29
3
Layoutlmv2 Finetuned Funsd
基於 Microsoft LayoutLMv2 模型在 FUNSD 數據集上微調的文檔理解模型
文字識別
Transformers

L
nielsr
1,319
13
Layoutlmv2 Finetuned Sroie Mod
基於microsoft/layoutlmv2-base-uncased微調的文檔理解模型,適用於結構化文檔信息提取任務
大型語言模型
Transformers

L
Theivaprakasham
37
1
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98