M

Mobilevit Xx Small

appleによって開発
MobileViTは、軽量で低遅延の視覚Transformerモデルで、CNNとTransformerの利点を組み合わせており、モバイルデバイスに適しています。
ダウンロード数 6,077
リリース時間 : 5/30/2022

モデル概要

このモデルはImageNet-1kデータセットで事前学習されており、画像分類タスクに使用できます。MobileNetV2スタイルのレイヤーとTransformerモジュールを組み合わせ、効率的な画像処理を実現しています。

モデル特徴

軽量設計
モデルのパラメータ数はわずか1.3Mで、モバイルデバイスやリソースが限られた環境に適しています
ハイブリッドアーキテクチャ
CNNの局所的特徴抽出能力とTransformerのグローバルなモデリング能力を組み合わせています
位置エンコーディング不要
従来のViTモデルと異なり、MobileViTは位置埋め込みを必要としません
マルチスケールトレーニング
トレーニング時にマルチスケールサンプリング戦略を採用し、モデルの適応性を強化しています

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
汎用画像分類
画像をImageNet-1kの1000カテゴリに分類
Top-1精度69.0%、Top-5精度88.9%
モバイル端末向け視覚アプリケーション
スマートフォンなどのモバイルデバイスでのリアルタイム画像認識に適しています
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase