# 开放词汇识别

OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m
MIT
一个基于SigLIP架构的轻量级视觉语言模型,通过蒸馏技术从更大的SigLIP-400m模型中提取知识,适用于零样本图像分类任务。
图像分类
O
PumeTu
30
0
Llmdet Swin Large Hf
Apache-2.0
LLMDet是基于大语言模型监督的强开放词汇目标检测器,CVPR2025亮点论文成果
目标检测
L
fushh7
3,428
1
Llmdet Swin Base Hf
Apache-2.0
LLMDet是一个基于大语言模型监督的开放词汇目标检测器,能够实现零样本目标检测。
目标检测 Safetensors
L
fushh7
605
0
Llmdet Swin Tiny Hf
Apache-2.0
LLMDet是基于大语言模型监督的强开放词汇目标检测器,能够实现零样本目标检测。
目标检测 Safetensors
L
fushh7
2,451
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型,通过VLM-R1强化学习增强,支持开放词汇检测任务。
文本生成图像 英语
V
omlab
892
11
Yoloe V8l Seg
YOLOE是一个实时视觉全能模型,结合了目标检测和视觉理解能力,适用于多种视觉任务。
目标检测
Y
jameslahm
4,135
1
Genmedclip
MIT
GenMedClip 是一个基于 open_clip 库的零样本图像分类模型,专注于医学图像分析。
图像分类
G
wisdomik
40
0
Eva02 Large Patch14 Clip 336.merged2b
MIT
EVA02 CLIP 是一个基于 CLIP 架构的大规模视觉-语言模型,支持零样本图像分类等任务。
文本生成图像
E
timm
197
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIP模型是基于OpenCLIP和timm模型权重的视觉语言模型,支持零样本图像分类等任务。
图像分类
E
timm
165
0
Eva02 Enormous Patch14 Clip 224.laion2b Plus
MIT
EVA-CLIP是基于CLIP架构的大规模视觉-语言模型,支持零样本图像分类等任务。
文本生成图像
E
timm
54
0
Vit Huge Patch14 Clip 224.metaclip Altogether
基于ViT-Huge架构的CLIP模型,支持零样本图像分类任务
图像分类
V
timm
171
1
Vit Base Patch16 Clip 224.metaclip 400m
基于MetaCLIP-400M数据集训练的双框架兼容视觉模型,支持OpenCLIP和timm框架
图像分类
V
timm
1,206
1
Omdet Turbo Swin Tiny Hf
Apache-2.0
OmDet-Turbo是基于实时Transformer的高效融合头开放词汇检测模型,适用于零样本目标检测任务。
目标检测 Safetensors
O
omlab
36.29k
33
Medcsp Clip
MIT
基于CLIP架构的医学领域零样本图像分类模型
文本生成图像
M
xcwangpsu
91
1
Resnet50x64 Clip.openai
MIT
基于OpenCLIP库的ResNet50x64架构的CLIP模型,支持零样本图像分类任务。
图像分类
R
timm
622
0
Resnet101 Clip.openai
MIT
基于ResNet101架构的CLIP模型,支持零样本图像分类任务。
图像分类
R
timm
2,717
0
Vitamin XL 384px
MIT
ViTamin-XL-384px 是一个基于 ViTamin 架构的大规模视觉语言模型,专为视觉语言任务设计,支持高分辨率图像处理和多模态特征提取。
图像生成文本 Transformers
V
jienengchen
104
20
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询检测图像中的对象。
文本生成图像 Transformers
O
Thomasboosinger
1
0
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位物体。
目标检测 Transformers
O
upfeatmediainc
15
0
Owlv2 Base Patch16
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询对图像中的物体进行检测和定位。
文本生成图像 Transformers
O
vvmnnnkv
26
0
Owlv2 Large Patch14 Finetuned
Apache-2.0
OWLv2是一个零样本文本条件目标检测模型,可通过文本查询在图像中检测物体,无需特定类别的训练数据。
文本生成图像 Transformers
O
google
1,434
4
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2是一个零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像 Transformers
O
google
262.77k
25
Owlv2 Base Patch16 Finetuned
Apache-2.0
OWLv2是一个零样本文本条件目标检测模型,可通过文本查询检索图像中的对象。
目标检测 Transformers
O
google
2,698
3
CLIP ViT L 14 CommonPool.XL.clip S13b B90k
MIT
基于CLIP架构的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
C
laion
534
1
CLIP ViT B 32 CommonPool.M.clip S128m B4k
MIT
基于CLIP架构的零样本图像分类模型,支持通用池化功能
图像生成文本
C
laion
164
0
CLIP ViT B 32 CommonPool.S.basic S13m B4k
MIT
基于CLIP架构的视觉-语言模型,支持零样本图像分类任务
图像生成文本
C
laion
53
0
Eva02 Large Patch14 Clip 224.merged2b S4b B131k
MIT
EVA02是一个基于CLIP架构的大规模视觉语言模型,支持零样本图像分类任务。
图像分类
E
timm
5,696
6
Owlvit Large Patch14
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可通过文本查询检索图像中的对象。
文本生成图像 Transformers
O
google
25.01k
25
Owlvit Base Patch16
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可通过文本查询在图像中检测物体。
文本生成图像 Transformers
O
google
4,588
12
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
文本生成图像 Transformers
O
google
764.95k
129
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase