MobileCLIP - B - OpenCLIPオープンソースの画像・テキストモデル - マルチモーダルトレーニングによるゼロショット画像分類の高速・高精度・安定性

Mobileclip B OpenCLIP

appleによって開発

MobileCLIP-Bは効率的な画像テキストモデルで、マルチモーダル強化トレーニングにより高速推論を実現し、ゼロショット画像分類タスクで優れた性能を発揮します。

ダウンロード数 715

リリース時間 : 6/7/2024

モデル概要

MobileCLIPは、効率的なゼロショット画像分類のために設計された高速画像テキストモデルです。マルチモーダル強化トレーニング手法により、モデルサイズを小さく保ちながら、より大きなモデルに匹敵する性能を実現しています。

効率的な性能

モデルサイズを小さく保ちながら、より大きなモデルに匹敵する性能を実現

高速推論

画像+テキスト処理の総遅延はわずか13.7ms（MobileCLIP-B）

マルチモーダルトレーニング

マルチモーダル強化トレーニング手法を採用してモデル性能を向上

ゼロショット能力

未見のカテゴリに対して強力なゼロショット分類能力を発揮

ゼロショット画像分類

画像テキストマッチング

マルチモーダル理解

コンピュータビジョン

画像分類

特定のトレーニングなしで画像を分類可能

ImageNet-1kで76.8%のゼロショット精度を達成

画像テキスト検索

テキスト記述に基づいて関連画像を検索

モバイルアプリケーション

モバイル端末向け視覚検索

モバイルデバイスで効率的な視覚検索機能を実現

モデル	学習サンプル数 (B)	パラメータ数 (M) (画像 + テキスト)	レイテンシ (ms) (画像 + テキスト)	IN-1kゼロショットトップ1精度 (%)	38データセットの平均性能 (%)
MobileCLIP-S0	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
MobileCLIP-S1	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
MobileCLIP-S2	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
MobileCLIP-B	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
MobileCLIP-B (LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8