# 图像文本匹配

Cultureclip
基于CLIP-ViT-B/32微调的视觉语言模型,适用于图像-文本匹配任务
文本生成图像 Transformers
C
lukahh
20
0
Sail Clip Hendrix 10epochs
基于openai/clip-vit-large-patch14微调的视觉语言模型,经过10个epoch的训练
文本生成图像 Transformers
S
cringgaard
49
0
Mexma Siglip2
MIT
MEXMA-SigLIP2是一个结合了MEXMA多语言文本编码器和SigLIP2图像编码器的高性能CLIP模型,支持80种语言。
文本生成图像 支持多种语言
M
visheratin
224
4
Clip Vit Tiny Random Patch14 336
这是一个用于调试的小型CLIP模型,基于ViT架构,随机初始化权重。
文本生成图像 Transformers
C
yujiepan
14.47k
0
Longclip GmP ViT L 14
基于BeichenZhang/LongCLIP-L微调的CLIP模型,支持长文本输入(248词符),采用几何参数化(GmP)技术提升性能
文本生成图像 Transformers
L
zer0int
4,859
61
Video Llava
基于Vision Transformer架构的大规模视觉语言模型,支持图像与文本的跨模态理解
文本生成图像
V
AnasMohamed
194
0
Vilt Finetuned 200
Apache-2.0
基于ViLT架构的视觉语言模型,在特定任务上进行了微调
文本生成图像 Transformers
V
Atul8827
35
0
Clip Vit Large Patch14
OpenAI 开源的 CLIP 模型,基于 Vision Transformer (ViT) 架构,支持图像和文本的联合理解。
文本生成图像 Transformers
C
Xenova
17.41k
0
CLIP Giga Config Fixed
MIT
基于LAION-2B数据集训练的CLIP大模型,采用ViT-bigG-14架构,支持图文跨模态理解
文本生成图像 Transformers
C
Geonmo
109
1
Japanese Cloob Vit B 16
Apache-2.0
由rinna株式会社训练的日语CLOOB(对比留一增强)模型,用于图像与文本的跨模态理解
文本生成图像 Transformers 日语
J
rinna
229.51k
12
Clip Vit Large Patch14 336
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
文本生成图像 Transformers
C
openai
5.9M
241
Clip Vit B 32 Japanese V1
这是一个适用于日语的CLIP文本/图像编码器模型,通过蒸馏技术将英语版CLIP模型转换为日语版本。
文本生成图像 Transformers 日语
C
sonoisa
690
21
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase