MobileCLIP-B-LT-OpenCLIPオープンソースの画像テキストモデル - Appleが開発、高速なゼロショット画像分類で同業を凌駕

Mobileclip B LT OpenCLIP

appleによって開発

MobileCLIP-B (LT)はApple社が開発した効率的な画像テキストモデルで、マルチモーダル強化トレーニングにより高速なゼロショット画像分類を実現し、同類モデルよりも優れた性能を発揮します。

ダウンロード数 774

リリース時間 : 6/7/2024

モデル概要

MobileCLIPは高速な画像テキストモデルで、ゼロショット画像分類タスクに特化して設計されており、最適化されたアーキテクチャとトレーニング方法により効率的な性能を実現します。

効率的な性能

高性能を維持しながら速度を大幅に向上、同類モデルより2-5倍高速

小型サイズ

同類のViT-B/16モデルと比べて2-3倍小型

強化トレーニング

マルチモーダル強化トレーニング手法を採用、36Bのトレーニングサンプルを使用

ゼロショット能力

ゼロショット画像分類タスクに最適化、特定タスクのファインチューニング不要

ゼロショット画像分類

マルチモーダル理解

高速推論

コンピュータビジョン

画像分類

特定のトレーニングなしで画像を分類可能

ImageNet-1kで77.2%のゼロショット精度を達成

マルチモーダル検索

画像とテキストのクロスモーダル検索を実現

モバイルアプリケーション

モバイル端末向け画像認識

モバイルデバイスに展開可能な軽量画像認識

低遅延（画像10.4ms+テキスト3.3ms）

モデル	学習サンプル数 (B)	パラメータ数 (M) (画像 + テキスト)	レイテンシ (ms) (画像 + テキスト)	IN-1kゼロショットトップ1精度 (%)	38データセットの平均性能 (%)
MobileCLIP-S0	13	11.4 + 42.4	1.5 + 1.6	67.8	58.1
MobileCLIP-S1	13	21.5 + 63.4	2.5 + 3.3	72.6	61.3
MobileCLIP-S2	13	35.7 + 63.4	3.6 + 3.3	74.4	63.7
MobileCLIP-B	13	86.3 + 63.4	10.4 + 3.3	76.8	65.2
MobileCLIP-B (LT)	36	86.3 + 63.4	10.4 + 3.3	77.2	65.8