TinyCLIP开源模型 - 快速又精准的大规模语言图像匹配解决方案

首页

Tinyclip ViT 8M 16 Text 3M YFCC15M

由 wkcn 开发

TinyCLIP是一种针对大规模语言-图像预训练模型的创新跨模态蒸馏方法，通过亲和性模仿与权重继承技术，在速度与精度之间实现最佳平衡。

文本生成图像

Transformers

开源协议:MIT #跨模态蒸馏 #零样本分类 #高效推理

下载量 56.32k

发布时间 : 12/19/2023

模型简介

TinyCLIP是一种高效的CLIP模型蒸馏方法，通过亲和性模仿和权重继承技术，显著减小模型规模同时保持高性能，适用于零样本图像分类等任务。

模型特点

亲和性模仿

通过模仿大规模模型的跨模态亲和性关系实现高效知识蒸馏

权重继承

自动或手动继承教师模型的关键权重，保留重要特征提取能力

高效推理

小模型版本可实现4,150对/秒的高吞吐量，适合实时应用

模型能力

零样本图像分类

跨模态检索

图像-文本匹配

使用案例

内容审核

违规内容识别

无需训练即可识别特定类别的违规图像

在ImageNet上达到56.4%-64.5%准确率

智能搜索

多模态搜索

通过自然语言查询检索相关图像

🚀 TinyCLIP：通过亲和度模仿和权重继承实现CLIP蒸馏

TinyCLIP 是一种针对大规模语言 - 图像预训练模型的新型 跨模态蒸馏 方法。该方法引入了两项核心技术：亲和度模仿 和 权重继承。这项工作释放了小型CLIP模型的潜力，充分利用大规模模型以及预训练数据，在速度和准确性之间取得了最佳平衡。

🚀 快速开始

使用Transformers库调用模型

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("wkcn/TinyCLIP-ViT-8M-16-Text-3M-YFCC15M")
processor = CLIPProcessor.from_pretrained("wkcn/TinyCLIP-ViT-8M-16-Text-3M-YFCC15M")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

✨ 主要特性

TinyCLIP ViT - 45M/32仅使用ViT - B/32 一半的参数，却能实现 相当的零样本性能。
TinyCLIP ResNet - 19M将参数减少了 50%，同时推理速度提高了 2倍，并在ImageNet上获得了 56.4% 的准确率。

📚 详细文档

模型库

模型	权重继承方式	预训练数据	ImageNet-1K 准确率@1(%)	乘加运算次数(G)	吞吐量(对/秒)	模型链接
TinyCLIP ViT-39M/16 Text-19M	手动	YFCC - 15M	63.5	9.5	1,469	模型
TinyCLIP ViT-8M/16 Text-3M	手动	YFCC - 15M	41.1	2.0	4,150	模型
TinyCLIP ResNet-30M Text-29M	手动	LAION - 400M	59.1	6.9	1,811	模型
TinyCLIP ResNet-19M Text-19M	手动	LAION - 400M	56.4	4.4	3,024	模型
TinyCLIP ViT-61M/32 Text-29M	手动	LAION - 400M	62.4	5.3	3,191	模型
TinyCLIP ViT-40M/32 Text-19M	手动	LAION - 400M	59.8	3.5	4,641	模型
TinyCLIP ViT-63M/32 Text-31M	自动	LAION - 400M	63.9	5.6	2,905	模型
TinyCLIP ViT-45M/32 Text-18M	自动	LAION - 400M	61.4	3.7	3,682	模型
TinyCLIP ViT-22M/32 Text-10M	自动	LAION - 400M	53.7	1.9	5,504	模型
TinyCLIP ViT-63M/32 Text-31M	自动	LAION+YFCC - 400M	64.5	5.6	2,909	模型
TinyCLIP ViT-45M/32 Text-18M	自动	LAION+YFCC - 400M	62.7	1.9	3,685	模型

注意：具有自动继承功能的模型配置是自动生成的。

官方PyTorch实现

点击查看

引用

如果本仓库对你有帮助，请考虑引用它。非常感谢！

@InProceedings{tinyclip,
    title     = {TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance},
    author    = {Wu, Kan and Peng, Houwen and Zhou, Zhenghong and Xiao, Bin and Liu, Mengchen and Yuan, Lu and Xuan, Hong and Valenzuela, Michael and Chen, Xi (Stephen) and Wang, Xinggang and Chao, Hongyang and Hu, Han},
    booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
    month     = {October},
    year      = {2023},
    pages     = {21970-21980}
}