MobileCLIP-S0オープンソース画像テキストモデル - マルチモーダルトレーニングで速度とサイズ効率を効果的に向上

Mobileclip S0 Timm

appleによって開発

MobileCLIP-S0は効率的な画像テキストモデルで、マルチモーダル強化トレーニングにより実現され、高性能を維持しながら速度とサイズ効率を大幅に向上させています。

ダウンロード数 532

リリース時間 : 6/6/2024

モデル概要

MobileCLIPは高速な画像テキストモデルで、マルチモーダルタスク向けに設計されており、ゼロショット分類などのタスクで高性能を発揮します。

効率的な性能

ViT-B/16と同等の性能を維持しながら、速度は4.8倍速く、サイズは2.8倍小さい

マルチモーダル強化トレーニング

特殊なトレーニング方法を採用し、画像テキストマッチング能力を向上

軽量化設計

モバイルおよびエッジデバイス向けに最適化されたモデルアーキテクチャ

ゼロショット画像分類

画像テキストマッチング

マルチモーダル理解

コンピュータビジョン

画像分類

特定のトレーニングなしで画像を分類可能

ImageNet-1kで67.8%のゼロショット精度を達成

マルチモーダルアプリケーション

画像テキスト検索

画像とテキスト間のクロスモーダル検索を実現

MobileCLIPは、Pavan Kumar Anasosalu Vasu、Hadi Pouransari、Fartash Faghri、Raviteja Vemulapalli、Oncel Tuzelによる論文 MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training (CVPR 2024) で紹介されたモデルです。

このリポジトリには、TIMMと互換性のある MobileCLIP-S0 のチェックポイントが含まれています。

MobileCLIP Performance Figure

最小バリアントの MobileCLIP-S0 は、OpenAI のViT - B/16モデルと同等のゼロショット性能を達成しながら、4.8倍高速で2.8倍小さいモデルサイズとなっています。
MobileCLIP-S2 は、SigLIP のViT - B/16モデルよりも優れた平均ゼロショット性能を達成し、2.3倍高速で2.1倍小さいモデルサイズで、かつ3分の1のサンプル数で学習されています。
MobileCLIP - B(LT) は、ゼロショットImageNet性能で 77.2% を達成しており、DFN や SigLIP などの最近の研究や、OpenAIのViT - L/14@336 よりも大幅に優れた性能を示しています。

モデル	学習サンプル数 (B)	パラメータ数 (M) (画像 + テキスト)	レイテンシ (ms) (画像 + テキスト)	IN - 1kゼロショットトップ1精度 (%)	38データセットの平均性能 (%)
[MobileCLIP - S0](https://hf.co/pcuenq/MobileCLIP - S0)	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
[MobileCLIP - S1](https://hf.co/pcuenq/MobileCLIP - S1)	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
[MobileCLIP - S2](https://hf.co/pcuenq/MobileCLIP - S2)	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
[MobileCLIP - B](https://hf.co/pcuenq/MobileCLIP - B)	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
[MobileCLIP - B (LT)](https://hf.co/pcuenq/MobileCLIP - B - LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8