MobileCLIP-S2オープンソース画像テキストモデル - コンパクトでゼロショット性能が良好、マルチモーダルトレーニングによる高速推論実現

Mobileclip S2 Timm

appleによって開発

MobileCLIP-S2は効率的な画像テキストモデルで、マルチモーダル強化トレーニングにより高速推論を実現し、コンパクトなサイズを維持しながら優れたゼロショット性能を提供します。

ダウンロード数 147

リリース時間 : 6/6/2024

モデル概要

MobileCLIP-S2はMobileCLIPシリーズの中規模バリアントで、高速な画像テキストマッチングタスク向けに設計されており、効率的なマルチモーダル理解が必要なシナリオに適しています。

効率的な性能

コンパクトなサイズを維持しながら、大規模モデルに匹敵するゼロショット性能を提供

高速推論

画像処理はわずか3.6ms、テキスト処理は3.3msで、リアルタイムアプリケーションに適しています

マルチモーダル強化トレーニング

特別なトレーニング方法により画像テキストマッチング能力を向上

軽量化設計

モデルサイズが同様のViT-B/16モデルよりも大幅に小さい

ゼロショット画像分類

画像テキストマッチング

マルチモーダル理解

高速推論

画像検索

テキストベースの画像検索

自然言語の記述を使用して関連画像を検索

高精度なマッチング結果

コンテンツモデレーション

画像テキスト整合性チェック

画像内容と説明テキストが一致しているか検証

不一致コンテンツを効率的に識別

スマートフォトアルバム

自動画像分類

意味内容に基づいてアルバムを自動整理

トレーニングデータ不要の正確な分類

モデル	学習サンプル数 (B)	パラメータ数 (M) (画像 + テキスト)	レイテンシ (ms) (画像 + テキスト)	IN - 1kゼロショットトップ1精度 (%)	38データセットの平均性能 (%)
MobileCLIP-S0	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
MobileCLIP-S1	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
MobileCLIP-S2	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
MobileCLIP-B	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
MobileCLIP-B (LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8