# 零样本图像分类

Fg Clip Base
Apache-2.0
FG-CLIP是一个细粒度视觉与文本对齐模型,通过两阶段训练实现全局和区域级别的图像-文本对齐。
文本生成图像 Transformers 英语
F
qihoo360
692
2
Openvision Vit Base Patch16 224
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
79
0
Openvision Vit Large Patch14 224
Apache-2.0
OpenVision 是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
308
4
OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m
MIT
一个基于SigLIP架构的轻量级视觉语言模型,通过蒸馏技术从更大的SigLIP-400m模型中提取知识,适用于零样本图像分类任务。
图像分类
O
PumeTu
30
0
Clip Backdoor Vit B16 Cc3m Blto Cifar
MIT
这是一个用于研究对比语言图像预训练中后门样本检测的预训练模型,包含特定的后门触发器BLTO。
文本生成图像 英语
C
hanxunh
9
0
Vit Gopt 16 SigLIP2 384
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类
文本生成图像
V
timm
1,953
1
Vit Gopt 16 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
文本生成图像
V
timm
43.20k
0
Vit SO400M 16 SigLIP2 512
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务
文本生成图像
V
timm
1,191
4
Vit SO400M 16 SigLIP2 384
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务。
文本生成图像
V
timm
106.30k
2
Vit SO400M 16 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类
文本生成图像
V
timm
998
0
Vit SO400M 14 SigLIP2 378
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
1,596
1
Vit SO400M 14 SigLIP2
Apache-2.0
一个在WebLI数据集上训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
文本生成图像
V
timm
1,178
0
Vit L 16 SigLIP2 512
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
147
2
Vit L 16 SigLIP2 384
Apache-2.0
一个在WebLI数据集上训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
文本生成图像
V
timm
581
0
Vit L 16 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类
文本生成图像
V
timm
888
0
Vit B 16 SigLIP2 512
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
1,442
1
Vit B 16 SigLIP2 384
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务
文本生成图像
V
timm
1,497
0
Vit B 16 SigLIP2
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
文本生成图像
V
timm
11.26k
0
Vit B 32 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
691
0
Vit B 16 SigLIP2 256
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务
文本生成图像
V
timm
10.32k
4
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
159.81k
21
Siglip2 Base Patch16 Naflex
Apache-2.0
SigLIP 2 是一个多语言视觉-语言编码器,整合了SigLIP的预训练目标并增加了新的训练方案,提升了语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
10.68k
5
Siglip2 So400m Patch16 512
Apache-2.0
SigLIP 2 是基于 SigLIP 的视觉语言模型,增强了语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
46.46k
18
Siglip2 So400m Patch16 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
7,632
2
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
2,729
0
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
图像生成文本 Transformers
S
google
622.54k
20
Siglip2 So400m Patch14 224
Apache-2.0
SigLIP 2 是基于 SigLIP 改进的多语言视觉语言编码器,增强了语义理解、定位和密集特征提取能力。
图像生成文本 Transformers
S
google
23.11k
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
26.12k
14
Siglip2 Giant Opt Patch16 256
Apache-2.0
SigLIP 2 是一个先进的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
3,936
1
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
4,416
8
Siglip2 Large Patch16 384
Apache-2.0
SigLIP 2 是在 SigLIP 基础上改进的多语言视觉语言编码器,提升了语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
6,525
2
Siglip2 Large Patch16 256
Apache-2.0
SigLIP 2 是基于 SigLIP 改进的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
10.89k
3
Siglip2 Base Patch16 512
Apache-2.0
SigLIP 2 是一个视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
28.01k
10
Siglip2 Base Patch16 384
Apache-2.0
SigLIP 2 是基于 SigLIP 的视觉语言模型,通过统一训练方案提升了语义理解、定位和密集特征提取能力。
图像生成文本 Transformers
S
google
4,832
5
Siglip2 Base Patch16 256
Apache-2.0
SigLIP 2是一个多语言视觉语言编码器,改进了语义理解、定位和密集特征提取能力。
图像生成文本 Transformers
S
google
45.24k
4
Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2是基于SigLIP改进的多语言视觉语言编码器,增强了语义理解、定位和密集特征提取能力。
图像生成文本 Transformers
S
google
44.75k
38
Siglip2 Base Patch32 256
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进版本,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
9,419
4
Mme5 Mllama 11b Instruct
MIT
mmE5是基于Llama-3.2-11B-Vision训练的多模态多语言嵌入模型,通过高质量合成数据改进嵌入性能,在MMEB基准测试中达到最先进水平。
多模态融合 Transformers 支持多种语言
M
intfloat
596
18
CLIP ViT H 14 Laion2b S32b B79k
MIT
这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型,擅长零样本图像分类和跨模态检索任务。
文本生成图像
C
ModelsLab
132
0
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
C
recallapp
17
0
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase