MobileCLIP-S2-OpenCLIP開源圖文模型 - 支持快速零樣本圖像分類實用之選

Mobileclip S2 OpenCLIP

由apple開發

MobileCLIP-S2 是一種高效的圖文模型，通過多模態強化訓練實現快速零樣本圖像分類。

下載量 99.74k

發布時間 : 6/7/2024

模型概述

MobileCLIP-S2 是 MobileCLIP 系列中的中等規模變體，專為快速零樣本圖像分類任務設計，在保持高效推理速度的同時提供優異的分類性能。

高效性能

在零樣本性能上優於 SigLIP 的 ViT-B/16 模型，速度快 2.3 倍，體積小 2.1 倍

低訓練數據需求

僅使用 13B 訓練樣本，比同類模型少 3 倍

多模態強化訓練

採用特殊的多模態訓練方法提升模型性能

零樣本圖像分類

圖文匹配

多模態理解

計算機視覺

圖像分類

無需特定訓練即可對圖像進行分類

在 ImageNet-1k 上達到 74.4% 零樣本 Top-1 準確率

視覺搜索

基於文本描述搜索相關圖像

移動應用

移動端圖像識別

在移動設備上實現高效的圖像識別功能

低延遲（圖像3.6ms + 文本3.3ms）

模型	所見樣本數 (B)	參數數量 (M) (圖像 + 文本)	延遲 (ms) (圖像 + 文本)	IN - 1k零樣本Top - 1準確率 (%)	38個數據集上的平均性能 (%)
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8