MobileCLIP-B-OpenCLIP開源圖文模型 - 多模態訓練助力零樣本圖像分類快準穩

Mobileclip B OpenCLIP

由apple開發

MobileCLIP-B是一種高效的圖文模型，通過多模態強化訓練實現快速推理，在零樣本圖像分類任務中表現優異。

下載量 715

發布時間 : 6/7/2024

模型概述

MobileCLIP是一種快速圖文模型，專為高效的零樣本圖像分類設計。它通過多模態強化訓練方法，在保持較小模型體積的同時實現了與更大模型相媲美的性能。

高效性能

在保持較小模型體積的同時實現了與更大模型相媲美的性能

快速推理

圖像+文本處理總延遲僅13.7ms（MobileCLIP-B）

多模態訓練

採用多模態強化訓練方法提升模型性能

零樣本能力

在未見過的類別上表現出強大的零樣本分類能力

零樣本圖像分類

圖文匹配

多模態理解

計算機視覺

圖像分類

無需特定訓練即可對圖像進行分類

在ImageNet-1k上達到76.8%的零樣本準確率

圖文檢索

根據文本描述檢索相關圖像

移動應用

移動端視覺搜索

在移動設備上實現高效的視覺搜索功能

模型	所見樣本數量（B）	參數數量（M）（圖像 + 文本）	延遲（ms）（圖像 + 文本）	ImageNet-1k零樣本Top - 1準確率（%）	38個數據集上的平均性能（%）
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8