MobileCLIP-S2-OpenCLIP开源图文模型 - 支持快速零样本图像分类实用之选

Mobileclip S2 OpenCLIP

由 apple 开发

MobileCLIP-S2 是一种高效的图文模型，通过多模态强化训练实现快速零样本图像分类。

下载量 99.74k

发布时间 : 6/7/2024

模型简介

MobileCLIP-S2 是 MobileCLIP 系列中的中等规模变体，专为快速零样本图像分类任务设计，在保持高效推理速度的同时提供优异的分类性能。

高效性能

在零样本性能上优于 SigLIP 的 ViT-B/16 模型，速度快 2.3 倍，体积小 2.1 倍

低训练数据需求

仅使用 13B 训练样本，比同类模型少 3 倍

多模态强化训练

采用特殊的多模态训练方法提升模型性能

零样本图像分类

图文匹配

多模态理解

计算机视觉

图像分类

无需特定训练即可对图像进行分类

在 ImageNet-1k 上达到 74.4% 零样本 Top-1 准确率

视觉搜索

基于文本描述搜索相关图像

移动应用

移动端图像识别

在移动设备上实现高效的图像识别功能

低延迟（图像3.6ms + 文本3.3ms）

模型	所见样本数 (B)	参数数量 (M) (图像 + 文本)	延迟 (ms) (图像 + 文本)	IN - 1k零样本Top - 1准确率 (%)	38个数据集上的平均性能 (%)
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8