# 零樣本圖像分類

Fg Clip Base
Apache-2.0
FG-CLIP是一個細粒度視覺與文本對齊模型,通過兩階段訓練實現全局和區域級別的圖像-文本對齊。
文本生成圖像 Transformers 英語
F
qihoo360
692
2
Openvision Vit Base Patch16 224
Apache-2.0
OpenVision是一個全開放、高性價比的先進視覺編碼器家族,專注於多模態學習。
多模態融合
O
UCSC-VLAA
79
0
Openvision Vit Large Patch14 224
Apache-2.0
OpenVision 是一個全開放、高性價比的先進視覺編碼器家族,專注於多模態學習。
多模態融合
O
UCSC-VLAA
308
4
OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m
MIT
一個基於SigLIP架構的輕量級視覺語言模型,通過蒸餾技術從更大的SigLIP-400m模型中提取知識,適用於零樣本圖像分類任務。
圖像分類
O
PumeTu
30
0
Clip Backdoor Vit B16 Cc3m Blto Cifar
MIT
這是一個用於研究對比語言圖像預訓練中後門樣本檢測的預訓練模型,包含特定的後門觸發器BLTO。
文本生成圖像 英語
C
hanxunh
9
0
Vit Gopt 16 SigLIP2 384
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類
文本生成圖像
V
timm
1,953
1
Vit Gopt 16 SigLIP2 256
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務。
文本生成圖像
V
timm
43.20k
0
Vit SO400M 16 SigLIP2 512
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務
文本生成圖像
V
timm
1,191
4
Vit SO400M 16 SigLIP2 384
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務。
文本生成圖像
V
timm
106.30k
2
Vit SO400M 16 SigLIP2 256
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類
文本生成圖像
V
timm
998
0
Vit SO400M 14 SigLIP2 378
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
文本生成圖像
V
timm
1,596
1
Vit SO400M 14 SigLIP2
Apache-2.0
一個在WebLI數據集上訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務。
文本生成圖像
V
timm
1,178
0
Vit L 16 SigLIP2 512
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
文本生成圖像
V
timm
147
2
Vit L 16 SigLIP2 384
Apache-2.0
一個在WebLI數據集上訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務。
文本生成圖像
V
timm
581
0
Vit L 16 SigLIP2 256
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類
文本生成圖像
V
timm
888
0
Vit B 16 SigLIP2 512
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
文本生成圖像
V
timm
1,442
1
Vit B 16 SigLIP2 384
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務
文本生成圖像
V
timm
1,497
0
Vit B 16 SigLIP2
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,適用於零樣本圖像分類任務。
文本生成圖像
V
timm
11.26k
0
Vit B 32 SigLIP2 256
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
文本生成圖像
V
timm
691
0
Vit B 16 SigLIP2 256
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務
文本生成圖像
V
timm
10.32k
4
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
159.81k
21
Siglip2 Base Patch16 Naflex
Apache-2.0
SigLIP 2 是一個多語言視覺-語言編碼器,整合了SigLIP的預訓練目標並增加了新的訓練方案,提升了語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
10.68k
5
Siglip2 So400m Patch16 512
Apache-2.0
SigLIP 2 是基於 SigLIP 的視覺語言模型,增強了語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
46.46k
18
Siglip2 So400m Patch16 384
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
7,632
2
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2 是基於 SigLIP 的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
2,729
0
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
622.54k
20
Siglip2 So400m Patch14 224
Apache-2.0
SigLIP 2 是基於 SigLIP 改進的多語言視覺語言編碼器,增強了語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
23.11k
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
26.12k
14
Siglip2 Giant Opt Patch16 256
Apache-2.0
SigLIP 2 是一個先進的視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
3,936
1
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2 是基於 SigLIP 的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
4,416
8
Siglip2 Large Patch16 384
Apache-2.0
SigLIP 2 是在 SigLIP 基礎上改進的多語言視覺語言編碼器,提升了語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
6,525
2
Siglip2 Large Patch16 256
Apache-2.0
SigLIP 2 是基於 SigLIP 改進的視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
10.89k
3
Siglip2 Base Patch16 512
Apache-2.0
SigLIP 2 是一個視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
28.01k
10
Siglip2 Base Patch16 384
Apache-2.0
SigLIP 2 是基於 SigLIP 的視覺語言模型,通過統一訓練方案提升了語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
4,832
5
Siglip2 Base Patch16 256
Apache-2.0
SigLIP 2是一個多語言視覺語言編碼器,改進了語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
45.24k
4
Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2是基於SigLIP改進的多語言視覺語言編碼器,增強了語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
44.75k
38
Siglip2 Base Patch32 256
Apache-2.0
SigLIP 2 是基於 SigLIP 的改進版本,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
9,419
4
Mme5 Mllama 11b Instruct
MIT
mmE5是基於Llama-3.2-11B-Vision訓練的多模態多語言嵌入模型,通過高質量合成數據改進嵌入性能,在MMEB基準測試中達到最先進水平。
多模態融合 Transformers 支持多種語言
M
intfloat
596
18
CLIP ViT H 14 Laion2b S32b B79k
MIT
這是一個基於OpenCLIP框架、在LAION-2B英語子集上訓練的視覺語言模型,擅長零樣本圖像分類和跨模態檢索任務。
文本生成圖像
C
ModelsLab
132
0
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
C
recallapp
17
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase