Trocr Ajami
專注於將圖像內容轉化為文本信息的模型,具有廣泛的應用價值。
圖像生成文本
TensorBoard 其他

T
TutlaytAI
139
0
Webssl Mae700m Full2b 224
這是一個7億參數的視覺Transformer模型,採用掩碼自編碼器自監督學習方法在20億網絡圖像上訓練,無需語言監督。
圖像分類
Transformers

W
facebook
15
0
Aya Vision 8b
Aya Vision 8B是一個開放權重的80億參數多語言視覺語言模型,支持23種語言的視覺和語言任務。
圖像生成文本
Transformers 支持多種語言

A
CohereLabs
29.94k
282
Turkish LLaVA V0.1
MIT
一個專為多模態視覺指令跟隨任務設計的土耳其語視覺語言模型,能夠同時處理視覺(圖像)和文本輸入,理解並執行土耳其語提供的指令。
圖像生成文本
Safetensors 其他
T
ytu-ce-cosmos
86
10
Vit Intern300m Patch14 448.ogvl Dist
MIT
InternViT-300M是一個由OpenGVLab團隊開發的視覺Transformer模型,通過從InternViT-6B蒸餾預訓練而來,支持多種視覺任務。
圖像分類
Transformers

V
timm
147
0
Idefics3 8B Llama3
Apache-2.0
Idefics3是一個開源的多模態模型,能夠處理任意序列的圖像和文本輸入並生成文本輸出。它在OCR、文檔理解和視覺推理方面有顯著提升。
圖像生成文本
Transformers 英語

I
HuggingFaceM4
45.86k
277
Florence 2 Large
MIT
Florence-2是微軟推出的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
文本生成圖像
Transformers

F
microsoft
579.23k
1,530
Internvit 300M 448px
MIT
InternViT-300M-448px是一個高效的視覺基礎模型,通過從InternViT-6B-448px-V1-5蒸餾知識開發而來,具備448×448的動態輸入分辨率,支持1至40個圖塊處理。
文本生成圖像
Transformers

I
OpenGVLab
7,506
57
Idefics2 8b Chatty
Apache-2.0
Idefics2 是一個開放的多模態模型,能夠接受任意序列的圖像和文本輸入並生成文本輸出。該模型可以回答關於圖像的問題、描述視覺內容、基於多張圖像創作故事,或僅作為純語言模型使用。
圖像生成文本
Transformers 英語

I
HuggingFaceM4
617
94
Internvit 6B 448px V1 5
MIT
InternViT-6B-448px-V1-5是基於InternViT-6B-448px-V1-2微調的視覺基礎模型,具備強大的魯棒性、OCR能力及高分辨率處理能力。
文本生成圖像
Transformers

I
OpenGVLab
155
79
Pix2text Table Rec
MIT
基於微軟Table Transformer開發的表格結構識別模型,用於文檔中的表格檢測與識別任務
文字識別
Transformers

P
breezedeus
1,124
2
Donut Base Handwriting Recognition
MIT
基於naver-clova-ix/donut-base微調的手寫識別模型
文字識別
Transformers

D
Cdywalst
140
1
Internvit 6B 448px V1 2
MIT
InternViT-6B-448px-V1-2是一個視覺基礎模型,特徵骨幹,具有5540萬參數,支持448x448像素的圖像處理。
文本生成圖像
Transformers

I
OpenGVLab
19
27
Sampel2 Docqa Layoutlmv3 Base
基於microsoft/layoutlmv2-base-uncased微調的文檔問答模型,具體訓練數據集未知
問答系統
Transformers

S
Tejagoud
10
0
Cogagent Vqa Hf
Apache-2.0
CogAgent是基於CogVLM改進的開源視覺語言模型,專注於單輪視覺問答任務
文本生成圖像
Transformers 英語

C
THUDM
238
49
Cogagent Chat Hf
Apache-2.0
CogAgent是基於CogVLM改進的開源視覺語言模型,具備GUI智能體、視覺多輪對話和視覺定位等能力。
文本生成圖像
Transformers 英語

C
THUDM
503
69
Testdocumentquestionanswering
基於LayoutLMv2架構的文檔視覺問答模型,針對DocVQA任務進行微調
圖像生成文本
Transformers

T
Dhineshk
16
0
Trained Model
該模型是基於microsoft/layoutlmv2-base-uncased在generator數據集上微調的版本,適用於文檔理解和佈局分析任務。
大型語言模型
Transformers

T
vfu
14
0
Donut Receipt V3
MIT
基於naver-clova-ix/donut-base微調的模型,具體用途未明確說明
大型語言模型
Transformers

D
mychen76
28
0
Layoutlmv2 Base Uncased Finetuned Docvqa
基於LayoutLMv2架構的文檔視覺問答模型,專為文檔理解任務微調
文本生成圖像
Transformers

L
madiltalay
14
0
Layoutlmv2 Base Uncased Finetuned Docvqa
基於LayoutLMv2架構的文檔視覺問答模型,專門針對文檔理解任務進行微調
圖像生成文本
Transformers

L
hugginglaoda
16
0
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base微調的文檔理解模型,專注於結構化文檔信息提取任務
文字識別
Transformers

D
enoreyes
15
0
Donut Base Bol
MIT
基於naver-clova-ix/donut-base微調的文檔理解模型,適用於圖像文件夾數據集
文字識別
Transformers

D
prakriti42
13
0
Layoutlmv2 Base Uncased Finetuned Docvqa V2
該模型是基於microsoft/layoutlmv2-base-uncased在文檔視覺問答任務上微調的版本,專注於處理文檔圖像中的文本和佈局信息。
圖像生成文本
Transformers

L
MariaK
54
3
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的模型,適用於文檔理解任務
文字識別
Transformers

D
zahra000
16
0
Donut Base Sroie
MIT
該模型是基於naver-clova-ix/donut-base在圖像文件夾數據集上微調的版本,適用於文檔理解任務。
文字識別
Transformers

D
unstructuredio
31
1
Donut Base Payslips
MIT
基於Donut架構的文檔理解模型,專門針對工資單圖像處理進行微調
文字識別
Transformers

D
Assadullah
20
0
Donut Base Medical Handwritten Blocks Data Extraction
MIT
基於Donut架構的模型,專門用於從醫療手寫文檔中提取結構化數據
文字識別
Transformers

D
mjawadazad2321
15
1
Donut Base Sroie
MIT
基於naver-clova-ix/donut-base微調的文檔理解模型,適用於圖像文本提取任務
文字識別
Transformers

D
philschmid
185
3
Trocr Captcha
MIT
該模型是一個基於MIT許可證的開源模型,CER(字符錯誤率)為0.0019,表明其在特定任務上具有較高的準確性。
大型語言模型
Transformers

T
tomofi
37
5
Layoutlmv2 Base Uncased Finetuned Docvqa
基於LayoutLMv2架構的文檔視覺問答模型,針對文檔理解任務進行了微調
文本生成圖像
Transformers

L
tiennvcs
983
14
Layoutlm Finetuned Funsd
這是一個在FUNSD數據集上微調的LayoutLM模型,專門用於文檔/表單的標記分類任務。
文字識別
Transformers

L
mrm8488
97
2
Layoutlmv2 Large Uncased Finetuned Infovqa
基於LayoutLMv2架構的文檔理解模型,針對InfoVQA任務進行微調
問答系統
Transformers

L
tiennvcs
16
2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98