MobileCLIP-B-LT-OpenCLIP開源圖文模型 - 蘋果出品快速零樣本圖像分類優同類

Mobileclip B LT OpenCLIP

由apple開發

MobileCLIP-B (LT)是蘋果公司推出的高效圖文模型，通過多模態強化訓練實現快速零樣本圖像分類，性能優於同類模型。

下載量 774

發布時間 : 6/7/2024

模型概述

MobileCLIP是一種快速圖文模型，專門設計用於零樣本圖像分類任務，通過優化的架構和訓練方法實現高效性能。

高效性能

在保持高性能的同時顯著提升速度，比同類模型快2-5倍

小體積

模型體積比同類ViT-B/16模型小2-3倍

強化訓練

採用多模態強化訓練方法，使用36B訓練樣本

零樣本能力

專為零樣本圖像分類任務優化，無需特定任務微調

零樣本圖像分類

多模態理解

快速推理

計算機視覺

圖像分類

無需特定訓練即可對圖像進行分類

在ImageNet-1k上達到77.2%的零樣本準確率

多模態檢索

實現圖文跨模態檢索

移動應用

移動端圖像識別

適合部署在移動設備上的輕量級圖像識別

低延遲（圖像10.4ms+文本3.3ms）

模型	所見樣本數量（B）	參數數量（M）（圖像 + 文本）	延遲（ms）（圖像 + 文本）	ImageNet - 1k零樣本Top - 1準確率（%）	38個數據集上的平均性能（%）
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8