MobileCLIP-S1-OpenCLIPオープンソースの画像テキストモデル - ゼロショット画像分類を高速で実現

Mobileclip S1 OpenCLIP

appleによって開発

MobileCLIP-S1は効率的な画像テキストモデルで、マルチモーダル強化学習により高速なゼロショット画像分類を実現します。

ダウンロード数 7,723

リリース時間 : 6/7/2024

モデル概要

MobileCLIP-S1はMobileCLIPシリーズの中規模モデルで、高い精度を維持しながら推論速度とモデルサイズを最適化しています。

効率的な性能

大規模モデルと同等の精度を維持しながら、推論速度を大幅に向上

マルチモーダル強化学習

革新的な訓練方法により画像テキストマッチング能力を向上

軽量化設計

同類モデルと比較してより小さなサイズと高速な処理速度

ゼロショット画像分類

画像テキストマッチング

マルチモーダル理解

コンピュータビジョン

画像分類

特定の訓練なしで画像を分類可能

ImageNet-1kで72.6%のゼロショット精度を達成

ビジュアル検索

テキスト記述に基づく関連画像検索

モデル	学習サンプル数 (B)	パラメータ数 (M) (画像 + テキスト)	レイテンシ (ms) (画像 + テキスト)	IN-1kゼロショットトップ1精度 (%)	38データセットの平均性能 (%)
MobileCLIP-S0	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
MobileCLIP-S1	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
MobileCLIP-S2	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
MobileCLIP-B	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
MobileCLIP-B (LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8