MobileCLIP-S2開源圖文模型 - 小體積零樣本性能好，多模態訓練實現快速推理

Mobileclip S2 Timm

由apple開發

MobileCLIP-S2是一種高效的圖文模型，通過多模態強化訓練實現快速推理，在保持較小體積的同時提供卓越的零樣本性能。

下載量 147

發布時間 : 6/6/2024

模型概述

MobileCLIP-S2是MobileCLIP系列中的中等規模變體，專為快速圖文匹配任務設計，適用於需要高效多模態理解的場景。

高效性能

在保持較小體積的同時，提供與大型模型相當的零樣本性能

快速推理

圖像處理僅需3.6ms，文本處理僅需3.3ms，適合即時應用

多模態強化訓練

通過特殊訓練方法提升圖文匹配能力

輕量化設計

模型體積顯著小於同類ViT-B/16模型

零樣本圖像分類

圖文匹配

多模態理解

快速推理

圖像檢索

基於文本的圖像搜索

使用自然語言描述檢索相關圖像

高精度匹配結果

內容審核

圖文一致性檢查

驗證圖像內容與描述文本是否匹配

高效識別不匹配內容

智能相冊

自動圖像分類

根據語義內容自動組織相冊

無需訓練數據的準確分類

模型	所見樣本數（B）	參數數量（M）（圖像 + 文本）	延遲（ms）（圖像 + 文本）	ImageNet - 1k零樣本Top - 1準確率（%）	38個數據集上的平均性能（%）
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8