MobileCLIP-B-OpenCLIP开源图文模型 - 多模态训练助力零样本图像分类快准稳

Mobileclip B OpenCLIP

由 apple 开发

MobileCLIP-B是一种高效的图文模型，通过多模态强化训练实现快速推理，在零样本图像分类任务中表现优异。

下载量 715

发布时间 : 6/7/2024

模型简介

MobileCLIP是一种快速图文模型，专为高效的零样本图像分类设计。它通过多模态强化训练方法，在保持较小模型体积的同时实现了与更大模型相媲美的性能。

高效性能

在保持较小模型体积的同时实现了与更大模型相媲美的性能

快速推理

图像+文本处理总延迟仅13.7ms（MobileCLIP-B）

多模态训练

采用多模态强化训练方法提升模型性能

零样本能力

在未见过的类别上表现出强大的零样本分类能力

零样本图像分类

图文匹配

多模态理解

计算机视觉

图像分类

无需特定训练即可对图像进行分类

在ImageNet-1k上达到76.8%的零样本准确率

图文检索

根据文本描述检索相关图像

移动应用

移动端视觉搜索

在移动设备上实现高效的视觉搜索功能

模型	所见样本数量（B）	参数数量（M）（图像 + 文本）	延迟（ms）（图像 + 文本）	ImageNet-1k零样本Top - 1准确率（%）	38个数据集上的平均性能（%）
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8