# 文檔理解

Qwen2.5 VL 7B Instruct Quantized.w8a8
Apache-2.0
Qwen2.5-VL-7B-Instruct的量化版本,支持視覺-文本輸入和文本輸出,通過INT8權重量化優化推理效率
圖像生成文本 Transformers 英語
Q
RedHatAI
1,992
3
Qwen2.5 VL 3B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-3B-Instruct的FP8量化版本,支持視覺-文本輸入和文本輸出,優化了推理效率。
文本生成圖像 Transformers 英語
Q
RedHatAI
112
1
H2ovl Mississippi 800m
Apache-2.0
H2O.ai推出的8億參數視覺語言模型,專注於OCR和文檔理解,性能優異
圖像生成文本 Transformers 英語
H
h2oai
77.67k
33
Idefics3 8B Llama3
Apache-2.0
Idefics3是一個開源的多模態模型,能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。
圖像生成文本 Transformers 英語
I
HuggingFaceM4
45.86k
277
Horus OCR
Donut 是一個基於 Transformer 的圖像轉文本模型,能夠從圖像中提取和生成文本內容。
圖像生成文本 Transformers
H
TeeA
21
0
Fine Tuned Rvl Cdip
基於microsoft/layoutlmv3-base模型在文檔圖像分類任務上微調的版本,在評估集上F1分數達到0.8177
文字識別 Transformers
F
davidhajdu
21
1
Donut Base Handwriting Recognition
MIT
基於naver-clova-ix/donut-base微調的手寫識別模型
文字識別 Transformers
D
Cdywalst
140
1
Docllm Baichuan2 7b
DocLLM_reimplementation 是一個針對文檔理解任務的大語言模型實現項目,旨在重新實現和改進文檔理解能力。
大型語言模型 Transformers
D
JinghuiLuAstronaut
185
5
Donut 240202
MIT
基於Yazawa/donut-base-sroie微調的文檔理解模型,適用於結構化文檔信息提取任務
文字識別 Transformers
D
Yazawa
93
0
Donut Receipt V3
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途未明確說明
大型語言模型 Transformers
D
mychen76
28
0
Donut Receipt V2
MIT
基於naver-clova-ix/donut-base微調的模型,可能用於收據識別或文檔理解任務
大型語言模型 Transformers
D
mychen76
31
0
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型,具體用途未明確說明
文字識別 Transformers
D
iamkhadke
13
0
Donut Trained Example 3
MIT
基於Donut架構的微調模型,具體用途和功能需要更多信息
大型語言模型 Transformers
D
anarenteriare
14
0
Donut Trained Example 2
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途未明確說明
大型語言模型 Transformers
D
anarenteriare
13
0
Donut Base Receipt V3
MIT
基於naver-clova-ix/donut-base微調的收據識別模型
大型語言模型 Transformers
D
hyunguk1
13
0
Donut Base Receipt
MIT
基於naver-clova-ix/donut-base微調的收據識別模型
大型語言模型 Transformers
D
hyunguk1
19
0
Donut Base Ru
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途未明確說明
大型語言模型 Transformers
D
Nyaaneet
21
1
Donut Demo
MIT
這是一個基於CORD-v2數據集微調的Donut模型,專為圖像轉文本任務設計,平均準確率達到0.901。
圖像生成文本 Transformers
D
katanaml
24
3
Layoutlmv3 Finetuned Funsd
基於microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3數據集上微調的文檔理解模型
文字識別 Transformers
L
Narsil
799
0
Donut Base Sroie
MIT
該模型是基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的版本,適用於文檔理解任務。
文字識別 Transformers
D
unstructuredio
31
1
Dof Invoice 1
MIT
基於naver-clova-ix/donut-base微調的發票處理模型
圖像生成文本 Transformers
D
Sebabrata
13
0
Donut Base Label Studio 200 Invoices
MIT
基於Donut架構的發票識別模型,在200張發票數據集上微調
文字識別 Transformers
D
Prem11100
18
0
Donut Base Sroie
MIT
基於philschmid/donut-base-sroie微調的文檔理解模型
文字識別 Transformers
D
Prem11100
13
0
Lilt Infoxlm Base
MIT
LiLT-InfoXLM 是一種語言無關的佈局變換器模型,通過將預訓練的InfoXLM與語言無關佈局變換器(LiLT)結合而成,適用於結構化文檔理解任務。
多模態融合 Transformers
L
SCUT-DLVCLab
110
5
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base微調的文檔理解模型,適用於圖像文本提取任務
文字識別 Transformers
D
philschmid
185
3
Donut Demo
MIT
基於CORD-v2數據集微調的VisionEncoderDecoder模型,用於文檔理解任務
文字識別 Transformers
D
nielsr
56
1
Layoutlmv3 Finetuned Wildreceipt
基於LayoutLMv3-base模型在WildReceipt收據數據集上微調的版本,用於收據關鍵信息提取任務
文字識別 Transformers
L
Theivaprakasham
118
3
Layoutlmv3 Finetuned Invoice
基於LayoutLMv3架構微調的發票信息提取模型,在SROIE數據集上表現出色
文字識別 Transformers
L
ronak1998
71
3
Layoutlmv3 Finetuned Invoice
在發票數據集上對LayoutLMv3-base進行微調的版本,用於發票信息提取
文字識別 Transformers
L
Theivaprakasham
896
20
Layoutlmv3 Finetuned Cord
基於LayoutLMv3在CORD數據集上微調的文檔理解模型,擅長文檔標記分類任務
文字識別 Transformers
L
nielsr
617
12
Layoutlmv3 Finetuned Funsd
基於LayoutLMv3-base模型在FUNSD數據集上微調的文檔理解模型,擅長表單和文檔的標記分類任務
文字識別 Transformers
L
nielsr
2,420
25
Layoutlmv2 Finetuned Cord
基於microsoft/layoutlmv2-base-uncased模型在未知數據集上微調的版本,適用於文檔理解任務
文字識別 Transformers
L
speydach
17
0
Layoutlmv2 Finetuned Cord
基於LayoutLMv2架構在CORD數據集上微調的文檔理解模型,適用於結構化文檔信息提取任務
文字識別 Transformers
L
katanaml
29
3
Layoutlmv2 Finetuned Funsd
基於 Microsoft LayoutLMv2 模型在 FUNSD 數據集上微調的文檔理解模型
文字識別 Transformers
L
nielsr
1,319
13
Layoutlmv2 Finetuned Sroie Mod
基於microsoft/layoutlmv2-base-uncased微調的文檔理解模型,適用於結構化文檔信息提取任務
大型語言模型 Transformers
L
Theivaprakasham
37
1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase