M

Mobilevit Small

appleによって開発
MobileViTは、軽量で低遅延の視覚Transformerモデルであり、CNNとTransformerの利点を組み合わせ、モバイル端末に適しています。
ダウンロード数 894.23k
リリース時間 : 5/30/2022

モデル概要

MobileViTは、画像分類タスクのための軽量な畳み込みニューラルネットワークで、MobileNetV2スタイルの層とTransformerモジュールを組み合わせています。

モデル特徴

軽量設計
モデルのパラメータ数はわずか5.6Mで、モバイル端末への展開に適しています。
CNNとTransformerの融合
CNNの局所的特徴抽出能力とTransformerのグローバルなモデリング能力を統合しています。
位置エンコーディング不要
モデル設計に位置エンコーディングが不要で、実装が簡素化されています。

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
ImageNet画像分類
画像を1000のImageNetカテゴリのいずれかに分類します。
Top-1精度78.4%、Top-5精度94.1%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase