Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
圖像生成文本
Transformers

S
google
622.54k
20
Gemma 3 4b It
Gemma是Google推出的輕量級先進開放模型系列,基於與Gemini相同的研究和技術構建。Gemma 3是多模態模型,能處理文本和圖像輸入並生成文本輸出。
圖像生成文本
Transformers

G
google
608.22k
477
Llava Llama 3 8b V1 1 Transformers
基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型,支持圖像文本到文本任務
圖像生成文本
L
xtuner
454.61k
78
Phi 3.5 Vision Instruct
MIT
Phi-3.5-vision 是一款輕量級、前沿的開放多模態模型,支持128K上下文長度,專注於高質量、富含推理的文本和視覺數據。
圖像生成文本
Transformers 其他

P
microsoft
397.38k
679
Gemma 3 27b It
Gemma是Google推出的輕量級前沿開放模型系列,基於與Gemini相同技術構建,支持多模態輸入和文本輸出。
圖像生成文本
Transformers

G
google
371.46k
1,274
Git Base
MIT
GIT是一個基於CLIP圖像標記和文本標記的雙條件Transformer解碼器,用於圖像到文本的生成任務。
圖像生成文本
Transformers 支持多種語言

G
microsoft
365.74k
93
Gemma 3 12b It
Gemma是Google推出的輕量級前沿開源多模態模型系列,基於創建Gemini模型的技術構建,支持文本和圖像輸入並生成文本輸出。
圖像生成文本
Transformers

G
google
364.65k
340
Siglip Base Patch16 224
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的Sigmoid損失函數,優化了圖像-文本匹配任務
圖像生成文本
Transformers

S
google
250.28k
43
Siglip Large Patch16 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的多模態模型,採用改進的Sigmoid損失函數,適用於零樣本圖像分類和圖文檢索任務。
圖像生成文本
Transformers

S
google
245.21k
6
Blip2 Opt 6.7b Coco
MIT
BLIP-2是一種視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本生成和視覺問答任務。
圖像生成文本
Transformers 英語

B
Salesforce
216.79k
33
Trocr Base Handwritten
MIT
TrOCR是一種基於Transformer的光學字符識別模型,專門用於手寫文本識別。
圖像生成文本
Transformers

T
microsoft
206.74k
405
Moondream2
Apache-2.0
Moondream 是一款輕量級視覺語言模型,專為高效全平臺運行設計。
圖像生成文本
M
vikhyatk
184.93k
1,120
Kosmos 2 Patch14 224
MIT
Kosmos-2是一個多模態大語言模型,能夠理解和生成與圖像相關的文本描述,並實現文本與圖像區域的關聯。
圖像生成文本
Transformers

K
microsoft
171.99k
162
Donut Base Finetuned Docvqa
MIT
Donut是一種無需OCR的文檔理解Transformer模型,基於DocVQA數據集微調,能夠直接從圖像中提取和理解文本信息。
圖像生成文本
Transformers

D
naver-clova-ix
167.80k
231
Biomedclip PubMedBERT 256 Vit Base Patch16 224
MIT
BiomedCLIP是一個生物醫學視覺語言基礎模型,通過對比學習在PMC-15M數據集上進行預訓練,支持跨模態檢索、圖像分類和視覺問答等任務。
圖像生成文本 英語
B
microsoft
137.39k
296
Donut Base Finetuned Rvlcdip
MIT
Donut是一種無需OCR的文檔理解Transformer模型,結合視覺編碼器和文本解碼器處理文檔圖像。
圖像生成文本
Transformers

D
naver-clova-ix
125.36k
13
Minicpm V 2 6 Int4
MiniCPM-V 2.6是一個多模態視覺語言模型,支持圖像文本到文本的轉換,具備多語言處理能力。
圖像生成文本
Transformers 其他

M
openbmb
122.58k
79
Blip2 Flan T5 Xl
MIT
BLIP-2是基於Flan T5-xl的視覺語言模型,通過凍結圖像編碼器和大型語言模型進行預訓練,支持圖像描述生成和視覺問答等任務。
圖像生成文本
Transformers 英語

B
Salesforce
91.77k
68
Minicpm V 2 6
MiniCPM-V是一個手機端GPT-4V級多模態大語言模型,支持單圖、多圖與視頻理解,具備視覺、光學字符識別等功能。
圖像生成文本
Transformers 其他

M
openbmb
91.52k
969
H2ovl Mississippi 2b
Apache-2.0
H2OVL-Mississippi-2B是由H2O.ai開發的高性能通用視覺語言模型,能夠處理廣泛的多模態任務。該模型擁有20億參數,在圖像描述、視覺問答(VQA)和文檔理解等任務中表現出色。
圖像生成文本
Transformers 英語

H
h2oai
91.28k
34
Clip Flant5 Xxl
Apache-2.0
基於google/flan-t5-xxl微調的視覺語言生成模型,專為圖像文本檢索任務設計
圖像生成文本
Transformers 英語

C
zhiqiulin
86.23k
2
Florence 2 SD3 Captioner
Apache-2.0
Florence-2-SD3-Captioner 是一個基於 Florence-2 架構的圖像描述生成模型,專門用於生成高質量的圖像描述文本。
圖像生成文本
Transformers 支持多種語言

F
gokaygokay
80.06k
34
H2ovl Mississippi 800m
Apache-2.0
H2O.ai推出的8億參數視覺語言模型,專注於OCR和文檔理解,性能優異
圖像生成文本
Transformers 英語

H
h2oai
77.67k
33
Moondream1
16億參數的多模態模型,融合SigLIP與Phi-1.5技術架構,支持圖像理解和問答任務
圖像生成文本
Transformers 英語

M
vikhyatk
70.48k
487
Gemma 3 27b It Qat Q4 0 Gguf
Gemma是Google推出的輕量級開源多模態模型系列,支持文本和圖像輸入並生成文本輸出,具有128K大上下文窗口和超過140種語言支持。
圖像生成文本
G
google
69.29k
251
Smolvlm2 2.2B Instruct
Apache-2.0
SmolVLM2-2.2B 是一款輕量級多模態模型,專為分析視頻內容而設計,可處理視頻、圖像和文本輸入並生成文本輸出。
圖像生成文本
Transformers 英語

S
HuggingFaceTB
62.56k
164
Pix2struct Tiny Random
MIT
這是一個基於MIT許可證的圖像轉文本模型,能夠將圖像內容轉換為描述性文本。
圖像生成文本
Transformers

P
fxmarty
60.87k
2
Florence 2 Base Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
圖像生成文本
Transformers

F
microsoft
56.78k
110
Gemma 3 4b Pt
Gemma是Google推出的一系列輕量級、最先進的開放模型,基於與創建Gemini模型相同的研究和技術構建。
圖像生成文本
Transformers

G
google
55.03k
68
Gemma 3 12b Pt
Gemma是Google推出的輕量級開源多模態模型系列,基於與Gemini相同技術構建,支持文本和圖像輸入並生成文本輸出。
圖像生成文本
Transformers

G
google
54.36k
46
Chexpert Mimic Cxr Findings Baseline
MIT
這是一個基於VisionEncoderDecoder架構的醫學影像報告生成模型,專門用於從胸部X光圖像生成放射學報告文本。
圖像生成文本
Transformers 英語

C
IAMJB
53.27k
1
Chexpert Mimic Cxr Impression Baseline
MIT
這是一個基於胸部X光圖像的文本生成模型,能夠根據醫學影像生成放射學印象報告。
圖像生成文本
Transformers 英語

C
IAMJB
52.87k
0
- 1
- 2
- 3
- 4
- 5
- 6
- 10