MobileCLIP-S2-OpenCLIPオープンソースの画像テキストモデル - 高速なゼロショット画像分類をサポートする実用的な選択肢

Mobileclip S2 OpenCLIP

appleによって開発

MobileCLIP-S2は、マルチモーダル強化トレーニングにより高速なゼロショット画像分類を実現する効率的な画像テキストモデルです。

ダウンロード数 99.74k

リリース時間 : 6/7/2024

モデル概要

MobileCLIP-S2はMobileCLIPシリーズの中規模バリアントで、高速なゼロショット画像分類タスク向けに設計されており、効率的な推論速度を維持しながら優れた分類性能を提供します。

効率的な性能

ゼロショット性能でSigLIPのViT-B/16モデルを上回り、速度は2.3倍速く、サイズは2.1倍小さい

低いトレーニングデータ要件

13Bのトレーニングサンプルのみを使用し、類似モデルよりも3倍少ない

マルチモーダル強化トレーニング

特別なマルチモーダルトレーニング手法を採用してモデル性能を向上

ゼロショット画像分類

画像テキストマッチング

マルチモーダル理解

コンピュータビジョン

画像分類

特定のトレーニングなしで画像を分類可能

ImageNet-1kで74.4%のゼロショットTop-1精度を達成

ビジュアル検索

テキスト記述に基づいて関連画像を検索

モバイルアプリケーション

モバイル端末画像認識

モバイルデバイスで効率的な画像認識機能を実現

低遅延（画像3.6ms + テキスト3.3ms）

モデル	学習サンプル数 (B)	パラメータ数 (M) (画像 + テキスト)	レイテンシ (ms) (画像 + テキスト)	IN-1kゼロショットトップ1精度 (%)	38データセットの平均性能 (%)
MobileCLIP-S0	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
MobileCLIP-S1	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
MobileCLIP-S2	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
MobileCLIP-B	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
MobileCLIP-B (LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8