CLIP ViT L 14 Spectrum Icons 20k
模型简介
该模型在23,000个抽象图像-文本对上微调,提升了文本到图像和图像到文本检索性能,特别适合处理抽象视觉特征
模型特点
抽象视觉特征理解
通过专用数据集微调,增强了对抽象图标和符号的理解能力
高效检索能力
在图像-文本双向检索任务中R@1达到70%,R@5超过96%
领域适应性
保持基础模型泛化能力的同时,优化了特定领域的表现
模型能力
零样本图像分类
文本到图像检索
图像到文本检索
抽象视觉特征匹配
使用案例
信息检索
图标库搜索
通过自然语言描述检索匹配的图标图像
R@1准确率约70%
内容管理
自动图像标注
为抽象图标生成描述性文本标签
🚀 CLIP-ViT-L-14-spectrum-icons-23k模型卡片
本模型是基于预训练模型进一步微调的成果,旨在提升文本到图像以及图像到文本的检索性能,能有效处理抽象视觉特征,增强RAG性能。
🚀 快速开始
安装所需依赖并加载微调后的模型:
from open_clip import create_model_and_transforms, tokenizer
model, preprocess = create_model_and_transforms(
model_name="hf-hub:JianLiao/CLIP-ViT-L-14-spectrum-icons-20k"
)
tokenizer = tokenizer("ViT-L-14")
# 示例:文本到图像检索
text_inputs = tokenizer(["a description of the image", "another description of the image"])
image = preprocess("/path/to/image.png").unsqueeze(0)
with torch.no_grad():
logits_per_image, logits_per_text = model(image, text_inputs)
probs = logits_per_image.softmax(dim=-1).numpy()
✨ 主要特性
直接用途
- 零样本图像分类。
- 文本到图像以及图像到图像的检索。
- 在抽象视觉上下文中改善文本 - 图像对齐。
下游用途
- 针对特定领域的图像 - 文本检索任务进行微调。
- 集成到需要增强语义搜索的应用程序中。
📦 安装指南
文档中未提及具体安装命令,跳过此章节。
💻 使用示例
基础用法
from open_clip import create_model_and_transforms, tokenizer
model, preprocess = create_model_and_transforms(
model_name="hf-hub:JianLiao/CLIP-ViT-L-14-spectrum-icons-20k"
)
tokenizer = tokenizer("ViT-L-14")
# 示例:文本到图像检索
text_inputs = tokenizer(["a description of the image", "another description of the image"])
image = preprocess("/path/to/image.png").unsqueeze(0)
with torch.no_grad():
logits_per_image, logits_per_text = model(image, text_inputs)
probs = logits_per_image.softmax(dim=-1).numpy()
高级用法
文档中未提及高级用法代码示例,跳过此部分。
📚 详细文档
模型详情
模型描述
这是一个基于LAION预训练的laion/CLIP-ViT-L-14-laion2B-s32B-b82K
进行微调的CLIP ViT-L/14模型。使用包含23,000个PNG - 文本描述对的自定义数据集(JianLiao/spectrum-icons)进行微调,以改善文本到图像和图像到文本的检索任务。微调过程使用了OpenCLIP库和NVIDIA GPU,使模型能够更好地处理抽象视觉特征,增强RAG性能。
基础模型最初在LAION - 2B数据集上进行训练,利用自然语言监督来对齐视觉和文本嵌入。本次微调任务旨在使模型进一步适应特定领域,同时保持泛化能力。
训练详情
训练数据
模型在23,000个图像 - 文本描述对上进行了微调。该数据集包含了多样化和抽象的视觉元素,并配有详细的文本描述,以增强模型处理抽象查询和检索任务的能力。
训练过程
微调使用OpenCLIP库在配备6块NVIDIA RTX - 3090 GPU的机器上进行。关键超参数如下:
- 学习率:
5e-6
,采用余弦衰减。 - 批量大小:每块GPU的批量大小为
64
,全局有效批量大小为384
。 - 训练轮数:
40
。 - 精度:混合精度(
amp_bf16
)以提高效率。 - 数据增强:
- 颜色抖动:
(0.2, 0.2, 0.1, 0.0)
,概率为0.7
。 - 灰度化概率:
0.2
。
- 颜色抖动:
训练过程中采用了梯度检查点、分布式数据并行(NCCL),并定期进行零样本性能评估。每个epoch后进行验证。
评估
测试数据、因素和指标
测试数据
模型在从23,000个图像 - 文本对中划分出的验证集上进行评估。针对图像到文本和文本到图像的检索任务计算指标。
指标
- K召回率:
- 图像到文本和文本到图像检索的R@1、R@5、R@10。
- 平均排名和中位数排名:
- 检索中正确匹配的平均和中位数位置。
结果
-
图像到文本检索:
- R@1:约70.0%
- R@5:约96.0%
- R@10:约97.8%
- 平均排名:约2.24
- 中位数排名:约1.0
-
文本到图像检索:
- R@1:约70.3%
- R@5:约96.4%
- R@10:约98.1%
- 平均排名:约2.17
- 中位数排名:约1.0
结果表明,视觉和文本嵌入之间具有强大的对齐能力,在两个检索任务上都表现出色。
致谢
- 预训练基础模型由LAION开发,并在LAION - 2B数据集上进行训练。
引用
BibTeX格式引用如下:
@inproceedings{cherti2023reproducible,
title={Reproducible scaling laws for contrastive language-image learning},
author={Cherti, Mehdi and Beaumont, Romain and Wightman, Ross and Wortsman, Mitchell and Ilharco, Gabriel and Gordon, Cade and Schuhmann, Christoph and Schmidt, Ludwig and Jitsev, Jenia},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={2818--2829},
year={2023}
}
OpenAI CLIP论文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}
OpenCLIP软件
@software{ilharco_gabriel_2021_5143773,
author = {Ilharco, Gabriel and
Wortsman, Mitchell and
Wightman, Ross and
Gordon, Cade and
Carlini, Nicholas and
Taori, Rohan and
Dave, Achal and
Shankar, Vaishaal and
Namkoong, Hongseok and
Miller, John and
Hajishirzi, Hannaneh and
Farhadi, Ali and
Schmidt, Ludwig},
title = {OpenCLIP},
month = jul,
year = 2021,
note = {If you use this software, please cite it as below.},
publisher = {Zenodo},
version = {0.1},
doi = {10.5281/zenodo.5143773},
url = {https://doi.org/10.5281/zenodo.5143773}
}
📄 许可证
本模型使用MIT许可证。
属性 | 详情 |
---|---|
模型类型 | 基于LAION预训练模型微调的CLIP ViT - L/14模型 |
训练数据 | 23,000个图像 - 文本描述对(JianLiao/spectrum-icons) |
Clip Vit Large Patch14 336
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
文本生成图像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基于CLIP开发的视觉语言模型,专门针对时尚领域进行微调,能够生成通用产品表征。
文本生成图像
Transformers 英语

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的轻量级先进开放模型系列,基于与Gemini模型相同的研究和技术构建。该模型是多模态模型,能够处理文本和图像输入并生成文本输出。
文本生成图像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长视觉问答任务,通过语言-图像联合训练实现多模态理解与生成能力
文本生成图像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索任务
文本生成图像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一个针对文本生成图像的评分函数,可用于预测人类偏好、评估模型性能和图像排序等任务。
文本生成图像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 发布的多语言多模态大型语言模型,支持图像文本到文本的转换任务,具备强大的跨模态理解能力。
文本生成图像
Transformers 支持多种语言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
文本生成图像
Transformers

O
google
764.95k
129
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98