D

Deit Base Patch16 384

facebookによって開発
DeiTは効率的に訓練されたVision Transformerモデルで、ImageNet - 1kデータセット上で384x384の解像度で事前学習と微調整が行われ、画像分類タスクに適しています。
ダウンロード数 442
リリース時間 : 3/2/2022

モデル概要

このモデルは、より効率的に訓練されたVision Transformer(ViT)で、アテンション機構と蒸留技術を通じて訓練プロセスを最適化し、主に画像分類タスクに使用されます。

モデル特徴

効率的な訓練
アテンション機構と蒸留技術を通じて訓練プロセスを最適化し、データの必要量を減らします。
高解像度対応
384x384の解像度の入力をサポートし、分類精度を向上させます。
軽量アーキテクチャ
基本モデルのパラメータ数は86Mで、中規模のデプロイに適しています。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
ImageNet分類
画像を1000のImageNetカテゴリの1つに分類します。
Top - 1精度82.9%、Top - 5精度96.2%。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase